더북(TheBook)

 

1NLTK 코퍼스

 

코퍼스(corpus)(말뭉치)는 정형이나 비정형인 단어나 표현의 묶음이다. 모든 NLTK 코퍼스는 nltk.corpus 모듈에 저장되어 있다. 예를 들면 다음과 같다.

 

◼︎ gutenberg : <모비딕(Moby Dick)>이나 <성경> 등 구텐베르크 프로젝트(Gutenberg Project)에서 제공하는 영문 텍스트 18개

◼︎ names : 8000개의 남성과 여성의 이름 리스트

◼︎ words : 가장 빈번하게 사용하는 영어 단어 23만 5000개

◼︎ stopwords : 14개의 언어로 된 가장 많이 사용하는 불용어(stop word) 리스트. 영어로 된 리스트는 stop words.words("english")에 저장되어 있다. 불용어는 대부분의 분석에서 보통 삭제하는데, 텍스트 이해에 별로 기여하는 바가 없기 때문이다.

◼︎ cmudict : 카네기멜론대학교에서 만든 발음 사전으로 13만 4000개 입력 데이터가 있다. cmudict.entries()의 각 입력 데이터는 단어와 그 음절(syllables) 리스트의 튜플이다. 단어가 같더라도 다르게 발음할 수 있다. 이 코퍼스를 사용하면 발음이 같은 동음이의어(homophones)를 찾아볼 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.