다음은 형태소 분석 결과입니다.
document
아 더빙 진짜 짜증나다 목소리
흠 포스터 보고 초딩 영화 줄 오버 연기 가볍다 않다
너 무재 밓었 다그 래서 보다 추천 다
교도소 이야기 구먼 솔직하다 재미 없다 평점 조정
...(중간 생략)...
이 뭐 한국인 거들다 먹거리 필리핀 혼혈 착하다
청춘 영화 최고봉 방황 우울하다 날 들 자화상
한국 영화 최초 수간 하다 내용 담기다 영화
앞서 생성했던 형태소를 별도 파일로 저장합니다. 이 부분은 한국어 토큰화와 관련성은 없으나 사용 방법을 소개하기 위해 포함했습니다.
코드 9-21 형태소 저장
with open("NaverMovie.nlp", 'w', encoding='utf-8') as fp:
fp.write("\n".join(result))
Word2Vec 모델을 생성한 후 저장합니다.
코드 9-22 Word2Vec 모델 생성
mData = word2vec.LineSentence("NaverMovie.nlp")
mModel = word2vec.Word2Vec(mData, size=200, window=10, hs=1, min_count=2, sg=1)
mModel.save("NaverMovie.model") ------ 모델 저장
한글에 대한 토큰화도 크게 다르지 않은 것을 확인할 수 있었습니다. 토큰화를 왜 해야 하고 어떻게 하는지에 대한 방법만 알면 언어에 관계없이 수행할 수 있습니다.