더북(TheBook)

문장을 토큰화하면 1차적으로 vocab 파일을 참조해서 문장을 여러 단어로 쪼갭니다. willful의 경우 will, ##ful로 쪼개지는데, 의미를 가지는 단어와 형용사 어미를 나눠서 표현한 것입니다. 이렇게 변경된 토큰과 이 토큰에 해당하는 숫자를 vocab 파일에서 찾아서 변환하면 맨 아래처럼(token_ids of samples) 표현되고, 이 숫자(id)들이 실제로 BERT 모델의 입력(Input)으로 들어갑니다.

토큰화가 끝나면 모델 학습으로 넘어갈 차례인데, 아직 한 단계가 더 남아 있습니다. 주어진 데이터의 텍스트 길이가 다양하므로 토큰화된 데이터의 길이도 그에 따라 다양할 것인데, 이를 어떻게 모델에 입력으로 넣어줘야 할지 고민하는 단계입니다. 이를 결정하기 위해 토큰 개수의 통계량을 먼저 살펴보겠습니다. 훈련 셋은 개수가 많아 테스트 셋으로 확인하겠습니다(그림 7-11 참고).

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.