더북(TheBook)

▲ 그림 10-2 워드투벡터

워드투벡터를 이용하여 텍스트를 벡터로 변환하는 예제를 살펴보겠습니다.

처음에 할 일은 필요한 모든 라이브러리를 호출하고 텍스트 데이터셋(peter.txt)1을 메모리로 로딩합니다. 메모리로 로딩된 데이터셋에 NLTK의 word_tokenize를 적용하여 토큰화합니다.

 

 


  1 이 데이터셋은 제임스 매슈 배리(James Matthew Barrie)의 <피터팬> 무료 이북 텍스트입니다(https://www.gutenberg.org/files/16/16-h/16-h.htm).

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.