더북(TheBook)

어간 추출(stemming): 단어를 기본 형태로 만드는 작업입니다. 예를 들어 ‘consign’, ‘consigned’, ‘consigning’, ‘consignment’가 있을 때 기본 단어인 ‘consign’으로 통일하는 것이 어간 추출입니다.

▲ 그림 9-3 어간 추출

품사 태깅(part-of-speech tagging): 주어진 문장에서 품사를 식별하기 위해 붙여 주는 태그(식별 정보)를 의미합니다.

▲ 그림 9-4 품사 태깅

품사 태깅을 위한 정보는 다음과 같습니다.

Det: 한정사

Noun: 명사

Verb: 동사

Prep: 전치사

품사 태깅은 NLTK를 이용할 수 있습니다(NLTK는 9.1.2절에서 설명합니다).

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.