9.1.2 자연어 처리를 위한 라이브러리
NLTK
NLTK(Natural Language ToolKit)는 교육용으로 개발된 자연어 처리 및 문서 분석용 파이썬 라이브러리입니다. 다양한 기능 및 예제를 가지고 있으며 실무 및 연구에서도 많이 사용되고 있습니다.
다음은 NLTK 라이브러리가 제공하는 주요 기능입니다.
• 말뭉치
• 토큰 생성
• 형태소 분석
• 품사 태깅
설치한 NLTK 라이브러리를 이용하여 예제를 살펴보겠습니다.
코드 9-4 nltk 라이브러리 호출 및 문장 정의
import nltk
nltk.download('punkt') ------ 문장을 단어로 쪼개기 위한 자원 내려받기
string1 = "my favorite subject is math"
string2 = "my favorite subject is math, english, economic and computer science"
nltk.word_tokenize(string1)