출력을 보면 2개의 새로운 특수 토큰이 어휘사전에 성공적으로 추가된 것을 알 수 있습니다. 그런 다음 코드 2-3의 토크나이저를 다음과 같이 수정합니다(코드 2-4).

▲ 그림 2-10 여러 개의 독립적인 텍스트 소스로 작업할 때 텍스트 사이에 <|endoftext|> 토큰을 추가합니다. <|endoftext|> 토큰은 특정 세그먼트의 시작 또는 끝을 알리는 일종의 마커(marker)로 작동하여, LLM이 텍스트를 보다 효과적으로 처리하고 이해할 수 있습니다.