토큰화된 이디스 워튼의 단편 소설이 파이썬 변수 preprocessed에 저장되어 있으므로 모든 고유 토큰의 리스트를 만들고 알파벳 순으로 정렬하여 어휘사전 크기를 확인해 보겠습니다.
all_words = sorted(set(preprocessed))
vocab_size = len(all_words)
print(vocab_size)
토큰화된 이디스 워튼의 단편 소설이 파이썬 변수 preprocessed에 저장되어 있으므로 모든 고유 토큰의 리스트를 만들고 알파벳 순으로 정렬하여 어휘사전 크기를 확인해 보겠습니다.
all_words = sorted(set(preprocessed))
vocab_size = len(all_words)
print(vocab_size)