워드투벡터를 이용하여 텍스트를 벡터로 변환하는 예제를 살펴보겠습니다.
처음에 할 일은 필요한 모든 라이브러리를 호출하고 텍스트 데이터셋(peter.txt)1을 메모리로 로딩합니다. 메모리로 로딩된 데이터셋에 NLTK의 word_tokenize를 적용하여 토큰화합니다.
코드 10-6 데이터셋을 메모리로 로딩하고 토큰화 적용
from nltk.tokenize import sent_tokenize, word_tokenize
import warnings
warnings.filterwarnings(action='ignore')
import gensim
from gensim.models import Word2Vec
sample = open("..\chap10\data\peter.txt", "r", encoding='UTF8') ------ 피터팬 데이터셋 로딩
s = sample.read()
f = s.replace("\n", " ") ------ 줄바꿈(\n)을 “ ”(공백)으로 변환
data = []
for i in sent_tokenize(f): ------ 로딩한 파일의 각 문장마다 반복
temp = []
for j in word_tokenize(i): ------ 문장을 단어로 토큰화
temp.append(j.lower()) ------ 토큰화된 단어를 소문자로 변환하여 temp에 저장
data.append(temp)
data