더북(TheBook)

코드 10-54 모델을 훈련시킬 텍스트 정의

text = "과수원에 사과가 많았다." \
       "친구가 나에게 사과했다." \
       "백설공주는 독이 든 사과를 먹었다."
marked_text = "[CLS] " + text + " [SEP]" ------ 생성된 문장의 앞에는 [CLS]를, 뒤에는 [SEP]를 추가
tokenized_text = tokenizer.tokenize(marked_text) ------ 문장을 토큰으로 분리
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text) ------토큰 문자열에 인덱스를 매핑
for tup in zip(tokenized_text, indexed_tokens): ------ 단어와 인덱스를 출력
    print('{:<12} {:>6,}'.format(tup[0], tup[1]))

다음은 앞에서 정의한 문장의 단어(토큰)와 인덱스를 출력한 결과입니다.

[CLS]          101
과            8,898
##수         15,891
##원에        108,280
사            9,405
##과         11,882
##가         11,287
많            9,249
##았다       27,303
.              119
친            9,781
##구         17,196
##가         11,287
나            8,982
##에게       26,212
사            9,405
##과         11,882
##했다       12,490
.              119
백            9,331
##설         31,928
##공         28,000
##주는        100,633
독            9,088
##이         10,739
든            9,115
사            9,405
##과         11,882
##를         11,513
먹            9,266
##었다       17,706
.              119
[SEP]          102
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.