더북(TheBook)

일반적으로 표제어 추출의 성능을 높이고자 단어에 대한 품사 정보를 추가하곤 합니다. 다음 코드와 같이 두 번째 파라미터에 품사 정보를 넣어 주면 정확하게 어근 단어를 추출할 수 있습니다.

코드 9-26 품사 정보가 추가된 표제어 추출

print(lemma.lemmatize('obsesses','v'), lemma.lemmatize('obsessed','a'))
print(lemma.lemmatize('standardizes','v'), lemma.lemmatize('standardization','n'))
print(lemma.lemmatize('national','a'), lemma.lemmatize('nation','n'))
print(lemma.lemmatize('absentness','n'), lemma.lemmatize('absently','r'))
print(lemma.lemmatize('tribalical','a'), lemma.lemmatize('tribalicalized','v'))

다음은 품사 정보가 추가된 표제어 추출을 실행한 결과입니다. 몇 개의 단어만 예시로 진행했기 때문에 앞에서 진행했던 결과와 동일하게 나타나지만 수백~수천 단어를 진행할 때는 차이가 크게 나타납니다.

obsess obsessed
standardize standardization
national nation
absentness absently
tribalical tribalicalized
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.