더북(TheBook)

표제어 추출

일반적으로 어간 추출보다 표제어 추출의 성능이 더 좋습니다. 품사와 같은 문법뿐만 아니라 문장 내에서 단어 의미도 고려하기 때문에 성능이 좋습니다. 하지만 어간 추출보다 시간이 더 오래 걸리는 단점이 있습니다.

표제어 추출은 WordNetLemmatizer를 주로 사용합니다.

코드 9-26 표제어 추출

import nltk
nltk.download('wordnet')

from nltk.stem import WordNetLemmatizer  ------ 표제어 추출 라이브러리
lemma = WordNetLemmatizer()

print(stemmer.stem('obsesses'), stemmer.stem('obsessed'))
print(lemma.lemmatize('standardizes'), lemma.lemmatize('standardization'))
print(lemma.lemmatize('national'), lemma.lemmatize('nation'))
print(lemma.lemmatize('absentness'), lemma.lemmatize('absently'))
print(lemma.lemmatize('tribalical'), lemma.lemmatize('tribalicalized'))

다음은 표제어 추출을 실행한 결과입니다.

obesses obssesed
standardizes standardization
national nation
absentness absently
tribalical tribalicalized
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.