5단계: DTM 생성하기

    이제 이렇게 정리된 코퍼스를 대상으로 문헌별 각 용어가 얼마나 나왔는지를 알려주는 DTM을 생성한다. 이 행렬을 생성하려면 지금까지 정리된 코퍼스에서 나타난 모든 단어를 행렬의 열로 배치하고, 코퍼스의 모든 문헌을 행으로 배치한 후 각 해당되는 값을 채우면 된다. 이때 다양한 경우로 값을 채울 수 있다. 각 문헌에서 각 용어가 나타난 빈도(Term Frequency, TF)이거나 용어 빈도에 가중치를 적용한 값(Term Frequency-Inverse Document Frequency, TF-IDF)이거나 또는 출현 여부로 0과 1로 나타낸 값 등이다.

    표 1-7은 문헌 10개를 TF 기준으로 나타낸 것이다.

    ▼ 표 1-7 문헌용어행렬(TF 기준)

     

    회귀

    분류

    군집

    탐색

    절차

    오픈 소스

    문헌 1

    24

    21

    9

    0

    0

    3

    문헌 2

    32

    10

    5

    0

    3

    0

    문헌 3

    12

    16

    5

    0

    0

    0

    문헌 4

    6

    7

    2

    0

    0

    0

    문헌 5

    43

    31

    20

    0

    3

    0

    문헌 6

    2

    0

    0

    18

    7

    6

    문헌 7

    0

    0

    1

    32

    12

    0

    문헌 8

    3

    0

    0

    22

    4

    4

    문헌 9

    1

    0

    0

    34

    27

    25

    문헌 10

    6

    0

    0

    17

    4

    23

    이때 TF의 경우, 값이 모든 문헌에서 크면 좋다고 볼 수 있지만 사실 특정 문헌을 식별하는 능력은 없다고 볼 수도 있다. 우리가 정보라고 부르는 것은 변동이 있을 때 발생한다. 텍스트 마이닝의 대상이 되는 단어 역시 모든 문헌에서 똑같이 발생한다면 코퍼스 내의 문헌별로 차이가 없어서 오히려 중요도가 떨어진다. 따라서 TF 값 중에서 모든 문헌에서 나타난 경우에는 가중치를 통해 덜 중요하게 만들 수 있다. 이때 적용되는 가중치를 역문헌 빈도, 그리고 그 결과를 빈도-역문헌 빈도(TF-IDF)라 부른다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.