먼저 포터 알고리즘을 적용해 보겠습니다.

    코드 9-24 포터 알고리즘

    from nltk.stem import PorterStemmer
    stemmer = PorterStemmer()
    
    print(stemmer.stem('obesses'), stemmer.stem('obssesed'))
    print(stemmer.stem('standardizes'), stemmer.stem('standardization'))
    print(stemmer.stem('national'), stemmer.stem('nation'))
    print(stemmer.stem('absentness'), stemmer.stem('absently'))
    print(stemmer.stem('tribalical'), stemmer.stem('tribalicalized'))  ------ 사전에 없는 단어

    다음은 포터 알고리즘을 실행한 결과입니다.

    obsess obsess
    standard standard
    nation nation
    absent absent
    tribal tribalic

    포터 알고리즘 수행 결과 단어 원형이 비교적 잘 보존되어 있는 것을 확인할 수 있습니다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.