더북(TheBook)

다음은 토큰과 인덱스의 출력 결과를 보여 줍니다.

0 [CLS]
1 과
2 ##수
3 ##원에
4 사
5 ##과
6 ##가
7 많
8 ##았다
9 .
10 친
11 ##구
12 ##가
13 나
14 ##에게
15 사
16 ##과
17 ##했다
18 .
19 백
20 ##설
21 ##공
22 ##주는
23 독
24 ##이
25 든
26 사
27 ##과
28 ##를
29 먹
30 ##었다
31 .
32 [SEP]

코드에서 ‘사과’는 4, 5, 15, 16, 26, 27에 있습니다. 원래는 붙어 있어야 하나의 단어가 되지만 쪼개진 상태에서 어떤 결과를 보여 주는지 계속 진행해 보겠습니다.