이제 뉴스 데이터의 텍스트 전처리와 시각화를 위해 KoNLPy가 있는 여러 형태소 분석기를 사용해 보자. 우리는 Okt를 사용할 것이다.
먼저 Okt를 불러와 간단한 문장에 품사 태깅을 실행해 보면서, 품사 태깅에 대해 알아보자. 다음 코드와 실행 결과를 보면, okt.pos()가 각 품사를 태깅한 모습을 볼 수 있다. 이때 ‘품사를 태깅한다’의 의미는 텍스트가 주어졌을 때 이를 형태소 단위로 나누고, 나눠진 형태소를 해당하는 품사와 함께 리스트로 만드는 것이다.
from konlpy.tag import Okt small_text = "아버지가 방에 들어가신다." %time Okt().pos(small_text)
실행 결과
[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb'), ('.', 'Punctuation')]