더북(TheBook)

훈련 데이터셋 2만 5000개를 훈련과 검증 용도로 분리했기 때문에 훈련 데이터셋은 2만 개, 검증 데이터셋은 5000개, 테스트 데이터셋은 2만 5000개가 됩니다.

이제 단어 집합을 만들어 보겠습니다. 단어 집합이란 말 그대로 IMDB 데이터셋에 포함된 단어들을 이용하여 하나의 딕셔너리와 같은 집합을 만드는 것으로 이해하면 됩니다. 참고로 단어 집합을 만들 때는 단어들의 중복은 제거된 상태에서 진행합니다.

코드 7-10 단어 집합 만들기

TEXT.build_vocab(train_data, max_size=10000, min_freq=10, vectors=None) ------ ①
LABEL.build_vocab(train_data)

print(f"Unique tokens in TEXT vocabulary: {len(TEXT.vocab)}")
print(f"Unique tokens in LABEL vocabulary: {len(LABEL.vocab)}")

① 단어 집합 생성은 build_vocab()을 이용하며 파라미터는 다음과 같습니다.

ⓐ 첫 번째 파라미터: 훈련 데이터셋

max_size: 단어 집합의 크기로 단어 집합에 포함되는 어휘 수를 의미합니다.

min_freq: 훈련 데이터셋에서 특정 단어의 최소 등장 횟수를 의미합니다. 즉, min_freq=10으로 설정했기 때문에 훈련 데이터셋에서 특정 단어가 최소 열 번 이상 등장한 것만 단어 집합에 추가하겠다는 의미입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.