더북(TheBook)

3 형태소 분석기로 조사, 어미, 구두점 제거

 

만약 특정 단어를 제외하거나 선택하고 싶다면 다음 방법들이 있다.

 

불용어 목록을 지정하는 방법

KoNLPy에서 품사를 지정해 추출하는 방법

Noun extractor를 이용하는 방법

 

여기서는 KoNLPy의 형태소 분석기(Okt, Open Korean Text)를 사용해 품사를 태깅하고 조사, 어미, 구두점을 제거해 보자.

KoNLPy를 사용하기 전에 KoNLPy에 대해 간략하게 알아보겠다. KoNLPy는 Kkma, Komoran, Hannanum, Okt(Twitter 형태소 분석기의 이름이 Okt로 변경됨), Mecab 형태소 분석기를 파이썬에서 사용할 수 있게 해 준다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.