더북(TheBook)

품사 태깅을 위한 정보는 다음과 같습니다.

Det: 한정사

Noun: 명사

Verb: 동사

Prep: 전치사

품사 태깅은 NLTK를 이용할 수 있습니다(NLTK는 9.1.2절에서 설명합니다).

NLTK는 아나콘다가 설치되어 있다면 추가적으로 설치할 필요가 없지만, 책에서는 가상 환경에서 실습하므로 다음 명령으로 설치합니다.

> pip install nltk

품사 태깅을 위해 주어진 문장에 대해 토큰화를 먼저 진행합니다. 다음 코드를 실행하면 NLTK Downloader 창이 뜹니다. Download를 눌러 내려받습니다.

코드 9-1 문장 토큰화

import nltk
nltk.download()
text = nltk.word_tokenize("Is it possible distinguishing cats and dogs")
text
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.