더북(TheBook)

워드투벡터를 이용하여 텍스트를 벡터로 변환하는 예제를 살펴보겠습니다.

처음에 할 일은 필요한 모든 라이브러리를 호출하고 텍스트 데이터셋(peter.txt)1을 메모리로 로딩합니다. 메모리로 로딩된 데이터셋에 NLTK의 word_tokenize를 적용하여 토큰화합니다.

코드 10-6 데이터셋을 메모리로 로딩하고 토큰화 적용

from nltk.tokenize import sent_tokenize, word_tokenize
import warnings
warnings.filterwarnings(action='ignore')
import gensim
from gensim.models import Word2Vec

sample = open("..\chap10\data\peter.txt", "r", encoding='UTF8') ------ 피터팬 데이터셋 로딩
s = sample.read()

f = s.replace("\n", " ") ------ 줄바꿈(\n)을 “ ”(공백)으로 변환
data = []

for i in sent_tokenize(f): ------ 로딩한 파일의 각 문장마다 반복
    temp = []
    for j in word_tokenize(i): ------ 문장을 단어로 토큰화
        temp.append(j.lower()) ------ 토큰화된 단어를 소문자로 변환하여 temp에 저장
    data.append(temp)

data
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.