fileids() 함수는 새롭게 만든 코퍼스에 포함된 파일 리스트를 반환한다. raw() 함수는 코퍼스에 있는 ‘원천(raw)’ 텍스트를 반환한다. sents() 함수는 모든 문장을 리스트로 반환한다. words() 함수는 모든 단어를 리스트 안에 넣어 반환한다. 이어지는 내용에서 원천 텍스트를 문장과 단어로 변환하는 마법이 어떻게 일어나는지 알아보자.
myCorpus.fileids()
myCorpus.raw()
myCorpus.sents()
myCorpus.words()
마지막 함수를 ‘UNIT 07. 카운터로 세기’에서 설명한 Counter 객체와 함께 사용하면 단어 빈도를 계산하고 등장 빈도가 가장 높은 단어를 뽑을 수 있다.
● ● ● ●
nltk 모듈은 비어 있다
nltk 모듈을 설치하면 코퍼스가 아니라 클래스만 설치한다. 배포에 포함하기에는 코퍼스 크기가 너무 크기 때문이다. 따라서 최초로 모듈을 임포트할 때는 download() 함수를 실행해야 한다는 것을 기억하자(인터넷 연결이 필요하다). 그리고 상황에 따라서 필요한 부분을 추가로 설치한다.