코드 10-54 모델을 훈련시킬 텍스트 정의

    text = "과수원에 사과가 많았다." \
           "친구가 나에게 사과했다." \
           "백설공주는 독이 든 사과를 먹었다."
    marked_text = "[CLS] " + text + " [SEP]" ------ 생성된 문장의 앞에는 [CLS]를, 뒤에는 [SEP]를 추가
    tokenized_text = tokenizer.tokenize(marked_text) ------ 문장을 토큰으로 분리
    indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text) ------토큰 문자열에 인덱스를 매핑
    for tup in zip(tokenized_text, indexed_tokens): ------ 단어와 인덱스를 출력
        print('{:<12} {:>6,}'.format(tup[0], tup[1]))

    다음은 앞에서 정의한 문장의 단어(토큰)와 인덱스를 출력한 결과입니다.

    [CLS]          101
    과            8,898
    ##수         15,891
    ##원에        108,280
    사            9,405
    ##과         11,882
    ##가         11,287
    많            9,249
    ##았다       27,303
    .              119
    친            9,781
    ##구         17,196
    ##가         11,287
    나            8,982
    ##에게       26,212
    사            9,405
    ##과         11,882
    ##했다       12,490
    .              119
    백            9,331
    ##설         31,928
    ##공         28,000
    ##주는        100,633
    독            9,088
    ##이         10,739
    든            9,115
    사            9,405
    ##과         11,882
    ##를         11,513
    먹            9,266
    ##었다       17,706
    .              119
    [SEP]          102
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.