더북(TheBook)

 

SECTION 2.2 텍스트 토큰화하기

LLM을 위한 임베딩을 만드는 데 필수적인 전처리 단계인, 입력 텍스트를 개별 토큰으로 분할하는 방법에 대해 알아보겠습니다. 이런 토큰은 그림 2-4에서 보듯이 개별 단어 또는 구두점 문자를 포함한 특수 문자일 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.