다음은 토큰의 ID를 반환한 결과입니다.
[2123, 1005, 1056, 2022, 2061, 8689, 2389]
이제 리뷰 텍스트 데이터를 토큰화하는 코드를 작성해 보겠습니다.
코드 10-50 리뷰 텍스트 데이터 토큰화
def tokenize_reviews(text_reviews):
return tokenizer.convert_tokens_to_ids(tokenizer.tokenize(text_reviews)) ------ 단일 텍스트 리뷰를 입력으로 받아들이면 토큰화된 단어의 ID를 반환
tokenized_reviews = [tokenize_reviews(review) for review in reviews] ------ 실제로 입력 데이터셋의 모든 리뷰를 토큰화
여기까지 버트 토크나이저를 사용한 예제였습니다.
버트 토크나이저를 구현했으므로 데이터를 실습 가능한 데이터셋으로 준비해 봅시다.
데이터셋의 리뷰 텍스트는 길이가 다양합니다. 일부 리뷰는 매우 짧은 반면, 어떤 리뷰는 매우 깁니다. 모델을 훈련시키려면 입력 문장의 길이가 같아야 합니다. 길이가 같은 문장을 만들기 위해 패딩(0으로 채움) 처리를 하지만, 이 방법은 행렬에 많은 수의 0이 포함될 수 있습니다. 따라서 각 배치 내에서 문장을 채우는 방법을 사용할 것입니다. 예제에서는 모델을 배치로 훈련하기 때문에 가장 긴 문장 길이에 맞추어 패딩을 진행해 보겠습니다.