• 어간 추출(stemming): 단어를 기본 형태로 만드는 작업입니다. 예를 들어 ‘consign’, ‘consigned’, ‘consigning’, ‘consignment’가 있을 때 기본 단어인 ‘consign’으로 통일하는 것이 어간 추출입니다.
▲ 그림 9-3 어간 추출
• 품사 태깅(part-of-speech tagging): 주어진 문장에서 품사를 식별하기 위해 붙여 주는 태그(식별 정보)를 의미합니다.
▲ 그림 9-4 품사 태깅
품사 태깅을 위한 정보는 다음과 같습니다.
• Det: 한정사
• Noun: 명사
• Verb: 동사
• Prep: 전치사
품사 태깅은 NLTK를 이용할 수 있습니다(NLTK는 9.1.2절에서 설명합니다).