원본 입력 텍스트와 역토큰화된 텍스트를 비교해 보면 훈련 데이터셋은 이디스 워튼의 소설 『The Verdict』에는 "Hello"와 "palace"라는 단어가 들어 있지 않다는 것을 알 수 있습니다.
LLM에 따라 다음과 같은 추가적인 특수 토큰을 사용하기도 합니다.
• [BOS](beginning of sequence) - 이 토큰은 텍스트의 시작을 표시합니다. 즉, 콘텐츠의 시작 부분을 LLM에 알려줍니다.
• [EOS](end of sequence) - 이 토큰은 텍스트 끝에 위치하며 <|endoftext|>와 비슷하게 관련이 없는 여러 개의 텍스트를 연결할 때 유용합니다. 예를 들어 서로 다른 2개의 위키백과 문서나 책을 합칠 때 [EOS] 토큰이 문서 하나가 끝나고 다음 문서가 시작되는 위치를 나타냅니다.
• [PAD](padding) - 하나 이상의 배치 크기로 LLM을 훈련할 때 배치 안에 길이가 다른 텍스트가 포함될 수 있습니다. 모든 텍스트의 길이를 동일하게 맞추기 위해 짧은 텍스트를 [PAD] 토큰을 사용해 배치에서 가장 긴 텍스트의 길이까지 확장 또는 ‘패딩(padding)’합니다.