더북(TheBook)

다음은 토큰과 인덱스의 출력 결과를 보여 줍니다.

0 [CLS]
1 과
2 ##수
3 ##원에
4 사
5 ##과
6 ##가
7 많
8 ##았다
9 .
10 친
11 ##구
12 ##가
13 나
14 ##에게
15 사
16 ##과
17 ##했다
18 .
19 백
20 ##설
21 ##공
22 ##주는
23 독
24 ##이
25 든
26 사
27 ##과
28 ##를
29 먹
30 ##었다
31 .
32 [SEP]

코드에서 ‘사과’는 4, 5, 15, 16, 26, 27에 있습니다. 원래는 붙어 있어야 하나의 단어가 되지만 쪼개진 상태에서 어떤 결과를 보여 주는지 계속 진행해 보겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.