▲ 그림 10-2 워드투벡터
워드투벡터를 이용하여 텍스트를 벡터로 변환하는 예제를 살펴보겠습니다.
처음에 할 일은 필요한 모든 라이브러리를 호출하고 텍스트 데이터셋(peter.txt)1을 메모리로 로딩합니다. 메모리로 로딩된 데이터셋에 NLTK의 word_tokenize를 적용하여 토큰화합니다.
1 이 데이터셋은 제임스 매슈 배리(James Matthew Barrie)의 <피터팬> 무료 이북 텍스트입니다(https://www.gutenberg.org/files/16/16-h/16-h.htm).