더북(TheBook)

메타 데이터

문서의 집합인 코퍼스 또는 각 문서에는 메타 데이터metadata6를 붙일 수 있다. 메타 데이터는 meta( ) 함수를 사용해 접근한다.

표 10-19 메타 데이터

tm::meta : 메타 데이터를 관리한다.

tm::meta(
  x,    # 코퍼스 또는 문서
  tag,  # 메타 데이터를 식별하는 이름
  type=c("indexed", "corpus", "local") # 메타 데이터를 붙이는 레벨. 기본값은 indexed
)

반환 값은 코퍼스 또는 문서의 메타 데이터다.

tm에서 메타 데이터를 붙이는 레벨에는 corpus, local, indexed의 세 가지 유형이 있다. 이 중 corpus는 문서 집합 전체에 대해 붙이는 메타 데이터며, local은 개별 문서에 직접 저장되는 메타 데이터다. indexed는 local과 유사하게 개별 문서와 연관된다. 그러나 local은 각 문서와 함께 저장되어 각 문서를 꺼낼 때만 해당 메타 데이터를 볼 수 있는 반면, indexed는 해당 메타 데이터가 독립적으로 존재하되 각 문서와 연관해서 볼 수 있게 되어 있다. 다음 예를 통해 이들을 구분해보자.


6 데이터를 설명하는 데이터를 말한다. 예를 들어, 문서의 경우 문서의 생성 일시, 저자, ID, 언어, 출처, 분류 레이블 등이 메타 데이터다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.