코드 10-6 데이터셋을 메모리로 로딩하고 토큰화 적용
from nltk.tokenize import sent_tokenize, word_tokenize
import warnings
warnings.filterwarnings(action='ignore')
import gensim
from gensim.models import Word2Vec
sample = open("..\chap10\data\peter.txt", "r", encoding='UTF8') ------ 피터팬 데이터셋 로딩
s = sample.read()
f = s.replace("\n", " ") ------ 줄바꿈(\n)을 공백(“ ”)으로 변환
data = []
for i in sent_tokenize(f): ------ 로딩한 파일의 각 문장마다 반복
temp = []
for j in word_tokenize(i): ------ 문장을 단어로 토큰화
temp.append(j.lower()) ------ 토큰화된 단어를 소문자로 변환하여 temp에 저장
data.append(temp)
data