생성형 AI 완전 정복: 2.2.3 LLM 훈련 과정: 데이터 수집, 전처리, 훈련 -7

2. 토큰화(tokenization)

LLM은 텍스트를 직접 처리할 수 없으므로 텍스트를 토큰이라는 작은 단위로 변환해야 합니다. 토큰화는 텍스트 데이터를 단어 또는 서브워드(더 작은 단위의 의미 단어) 단위로 나누는 과정입니다. 이 과정에서 중요한 고려 사항은 다음과 같습니다.

▪ 단어 단위 토큰화: 텍스트를 단어 단위로 분할합니다. 예를 들어 The quick brown fox라는 문장은 The, quick, brown, fox로 토큰화할 수 있습니다.

▪ 서브워드 단위 토큰화: 특히 새로운 단어나 희귀 단어를 처리하기 위해 단어를 더 작은 서브워드 단위로 나눕니다. unhappiness라는 단어는 un, happiness로 토큰화할 수 있습니다. 이는 모델이 새로운 단어를 효과적으로 학습하도록 도와줍니다.

▪ 문장 단위 토큰화: 때로는 문장을 기본 단위로 나누기도 합니다. 이는 긴 텍스트를 다룰 때 유용하며, 문장 간 문맥을 모델이 학습하도록 도와줍니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.