파일로부터 코퍼스 생성
지금까지 보인 문서 분류의 예에서는 tm 패키지 내에 이미 잘 정리된 crude 데이터 등을 사용했다. 그러나 문서 분류를 실제로 수행하게 되면 직접 문서 파일을 읽어들여야 한다.
tm이 지원하는 문서 입력 소스의 목록은 getSources( )로 볼 수 있다.
> getSources()
[1] "DataframeSource" "DirSource" "GmaneSource"
[4] "ReutersSource" "URISource" "VectorSource"
이 절에서는 DataframeSource를 사용하는 방법을 살펴보자.
tm::getSources : 코퍼스를 만들 수 있는 입력 소스의 목록을 보인다. |
tm::getSources() 반환 값은 소스의 이름을 저장한 벡터다. |
tm::DataframeSource : 텍스트를 저장한 데이터 프레임으로부터 코퍼스 생성을 위한 소스를 만든다. |
tm::DataframeSource( x, # 데이터 프레임 encoding="unknown" # 문자 인코딩 ) 반환 값은 tm::Corpus( )에 넘길 수 있는 입력 소스다. |
tm::Corpus : 입력 소스로부터 코퍼스를 생성한다. |
tm::Corpus(
x # 입력 소스
)
반환 값은 코퍼스다. |