더북(TheBook)

단어 간 상관관계

findAssocs( )는 주어진 단어와 상관 계수가 높은 단어들을 찾는다. 상관 계수가 높은 단어는 서로 상관관계가 있다고 볼 수 있다.

표 10-17 단어 간 상관 계수

tm::findAssocs : 주어진 단어와 상관 계수가 높은 단어들을 찾는다.

tm::findAssocs(
  x,        # 단어-문서 또는 문서-단어 행렬
  terms,    # 상관 계수가 높은 단어를 찾을 단어들
  corlimit  # 상관 계수의 하한
)

반환 값은 단어간 상관 계수가 높은 단어들이다.

다음은 oil과 상관 계수가 0.7 이상인 단어들을 찾은 예다. opec, winter, market, prices 등의 단어를 보면 직관적으로도 oil과 함께 출현하는 빈도가 높을 만한 단어들임을 쉽게 예상할 수 있다.

> findAssocs(TermDocumentMatrix(crude), "oil", 0.7)
    15.8     opec   clearly     late    trying      who   winter
    0.87     0.87      0.80     0.80      0.80     0.80     0.80
analysts     said   meeting    above emergency   market    fixed
    0.79     0.78      0.77     0.76      0.75     0.75  vv 0.73
    that   prices agreement   buyers
    0.73     0.72      0.71      0.70
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.