표제어 추출

    일반적으로 어간 추출보다 표제어 추출의 성능이 더 좋습니다. 품사와 같은 문법뿐만 아니라 문장 내에서 단어 의미도 고려하기 때문에 성능이 좋습니다. 하지만 어간 추출보다 시간이 더 오래 걸리는 단점이 있습니다.

    표제어 추출은 WordNetLemmatizer를 주로 사용합니다.

    코드 9-26 표제어 추출

    import nltk
    nltk.download('wordnet')
    
    from nltk.stem import WordNetLemmatizer  ------ 표제어 추출 라이브러리
    lemma = WordNetLemmatizer()
    
    print(stemmer.stem('obsesses'), stemmer.stem('obsessed'))
    print(lemma.lemmatize('standardizes'), lemma.lemmatize('standardization'))
    print(lemma.lemmatize('national'), lemma.lemmatize('nation'))
    print(lemma.lemmatize('absentness'), lemma.lemmatize('absently'))
    print(lemma.lemmatize('tribalical'), lemma.lemmatize('tribalicalized'))

    다음은 표제어 추출을 실행한 결과입니다.

    obesses obssesed
    standardizes standardization
    national nation
    absentness absently
    tribalical tribalicalized
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.