더북(TheBook)

9.1.2 자연어 처리를 위한 라이브러리

NLTK

NLTK(Natural Language ToolKit)는 교육용으로 개발된 자연어 처리 및 문서 분석용 파이썬 라이브러리입니다. 다양한 기능 및 예제를 가지고 있으며 실무 및 연구에서도 많이 사용되고 있습니다.

다음은 NLTK 라이브러리가 제공하는 주요 기능입니다.

말뭉치

토큰 생성

형태소 분석

품사 태깅

설치한 NLTK 라이브러리를 이용하여 예제를 살펴보겠습니다.

코드 9-4 nltk 라이브러리 호출 및 문장 정의

import nltk
nltk.download('punkt') ------ 문장을 단어로 쪼개기 위한 자원 내려받기
string1 = "my favorite subject is math"
string2 = "my favorite subject is math, english, economic and computer science"
nltk.word_tokenize(string1)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.