더북(TheBook)

코드 10-6 데이터셋을 메모리로 로딩하고 토큰화 적용

from nltk.tokenize import sent_tokenize, word_tokenize
import warnings
warnings.filterwarnings(action='ignore')
import gensim
from gensim.models import Word2Vec

sample = open("..\chap10\data\peter.txt", "r", encoding='UTF8') ------ 피터팬 데이터셋 로딩
s = sample.read()

f = s.replace("\n", " ") ------ 줄바꿈(\n)을 공백(“ ”)으로 변환
data = []

for i in sent_tokenize(f): ------ 로딩한 파일의 각 문장마다 반복
    temp = []
    for j in word_tokenize(i): ------ 문장을 단어로 토큰화
        temp.append(j.lower()) ------ 토큰화된 단어를 소문자로 변환하여 temp에 저장
    data.append(temp)

data
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.