품사 태깅을 위한 정보는 다음과 같습니다.
• Det: 한정사
• Noun: 명사
• Verb: 동사
• Prep: 전치사
품사 태깅은 NLTK를 이용할 수 있습니다(NLTK는 9.1.2절에서 설명합니다).
NLTK는 아나콘다가 설치되어 있다면 추가적으로 설치할 필요가 없지만, 책에서는 가상 환경에서 실습하므로 다음 명령으로 설치합니다.
> pip install nltk
품사 태깅을 위해 주어진 문장에 대해 토큰화를 먼저 진행합니다. 다음 코드를 실행하면 NLTK Downloader 창이 뜹니다. Download를 눌러 내려받습니다.
코드 9-1 문장 토큰화
import nltk
nltk.download()
text = nltk.word_tokenize("Is it possible distinguishing cats and dogs")
text