5. 원형 추출(lemmatization) : 더 느리고 더 보수적인 형태소 추출 메커니즘이다. WordNetLemmatizer는 WordNet이 계산한 형태소를 참조해 문장에서 단어나 표현을 인식한다(원형 추출기를 사용하려면 인터넷에 연결해야 한다). lemmatize(word) 함수는 단어의 원형을 반환한다.
lemmatizer = nltk.WordNetLemmatizer()
lemmatizer.lemmatize("wonderful")
>>>
'wonderful'
정규화 과정의 일부는 아니지만, 품사 태깅(POS tagging)은 텍스트 처리에서 매우 중요한 단계다. nltk.pos_tag(text)는 텍스트(단어의 리스트)에 있는 모든 단어에 품사를 할당한다. 반환되는 값은 튜플의 리스트인데, 튜플의 첫 번째 요소는 원래 단어고 두 번째 요소는 품사다.
# 형용사와 명사
nltk.pos_tag(["beautiful", "world"])
>>>
[('beautiful', 'JJ'), ('world', 'NN')]