코드 10-54 모델을 훈련시킬 텍스트 정의
text = "과수원에 사과가 많았다." \
"친구가 나에게 사과했다." \
"백설공주는 독이 든 사과를 먹었다."
marked_text = "[CLS] " + text + " [SEP]" ------ 생성된 문장의 앞에는 [CLS]를, 뒤에는 [SEP]를 추가
tokenized_text = tokenizer.tokenize(marked_text) ------ 문장을 토큰으로 분리
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text) ------토큰 문자열에 인덱스를 매핑
for tup in zip(tokenized_text, indexed_tokens): ------ 단어와 인덱스를 출력
print('{:<12} {:>6,}'.format(tup[0], tup[1]))
다음은 앞에서 정의한 문장의 단어(토큰)와 인덱스를 출력한 결과입니다.
[CLS] 101 과 8,898 ##수 15,891 ##원에 108,280 사 9,405 ##과 11,882 ##가 11,287 많 9,249 ##았다 27,303 . 119 친 9,781 ##구 17,196 ##가 11,287 나 8,982 ##에게 26,212 사 9,405 ##과 11,882 ##했다 12,490 . 119 백 9,331 ##설 31,928 ##공 28,000 ##주는 100,633 독 9,088 ##이 10,739 든 9,115 사 9,405 ##과 11,882 ##를 11,513 먹 9,266 ##었다 17,706 . 119 [SEP] 102