파일로부터 코퍼스 생성

    지금까지 보인 문서 분류의 예에서는 tm 패키지 내에 이미 잘 정리된 crude 데이터 등을 사용했다. 그러나 문서 분류를 실제로 수행하게 되면 직접 문서 파일을 읽어들여야 한다.

    tm이 지원하는 문서 입력 소스의 목록은 getSources( )로 볼 수 있다.

    > getSources()
    [1] "DataframeSource" "DirSource" "GmaneSource"
    [4] "ReutersSource" "URISource" "VectorSource"
    

    이 절에서는 DataframeSource를 사용하는 방법을 살펴보자.

    표 10-18 데이터 프레임으로부터의 코퍼스 생성

    tm::getSources : 코퍼스를 만들 수 있는 입력 소스의 목록을 보인다.

    tm::getSources()

    반환 값은 소스의 이름을 저장한 벡터다.

    tm::DataframeSource : 텍스트를 저장한 데이터 프레임으로부터 코퍼스 생성을 위한 소스를 만든다.

    tm::DataframeSource(
      x,                 # 데이터 프레임
      encoding="unknown" # 문자 인코딩
    )

    반환 값은 tm::Corpus( )에 넘길 수 있는 입력 소스다.

    tm::Corpus : 입력 소스로부터 코퍼스를 생성한다.

    tm::Corpus(
      x  # 입력 소스
    )

    반환 값은 코퍼스다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.