더북(TheBook)

파일로부터 코퍼스 생성

지금까지 보인 문서 분류의 예에서는 tm 패키지 내에 이미 잘 정리된 crude 데이터 등을 사용했다. 그러나 문서 분류를 실제로 수행하게 되면 직접 문서 파일을 읽어들여야 한다.

tm이 지원하는 문서 입력 소스의 목록은 getSources( )로 볼 수 있다.

> getSources()
[1] "DataframeSource" "DirSource" "GmaneSource"
[4] "ReutersSource" "URISource" "VectorSource"

이 절에서는 DataframeSource를 사용하는 방법을 살펴보자.

표 10-18 데이터 프레임으로부터의 코퍼스 생성

tm::getSources : 코퍼스를 만들 수 있는 입력 소스의 목록을 보인다.

tm::getSources()

반환 값은 소스의 이름을 저장한 벡터다.

tm::DataframeSource : 텍스트를 저장한 데이터 프레임으로부터 코퍼스 생성을 위한 소스를 만든다.

tm::DataframeSource(
  x,                 # 데이터 프레임
  encoding="unknown" # 문자 인코딩
)

반환 값은 tm::Corpus( )에 넘길 수 있는 입력 소스다.

tm::Corpus : 입력 소스로부터 코퍼스를 생성한다.

tm::Corpus(
  x  # 입력 소스
)

반환 값은 코퍼스다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.