5단계: DTM 생성하기
이제 이렇게 정리된 코퍼스를 대상으로 문헌별 각 용어가 얼마나 나왔는지를 알려주는 DTM을 생성한다. 이 행렬을 생성하려면 지금까지 정리된 코퍼스에서 나타난 모든 단어를 행렬의 열로 배치하고, 코퍼스의 모든 문헌을 행으로 배치한 후 각 해당되는 값을 채우면 된다. 이때 다양한 경우로 값을 채울 수 있다. 각 문헌에서 각 용어가 나타난 빈도(Term Frequency, TF)이거나 용어 빈도에 가중치를 적용한 값(Term Frequency-Inverse Document Frequency, TF-IDF)이거나 또는 출현 여부로 0과 1로 나타낸 값 등이다.
표 1-7은 문헌 10개를 TF 기준으로 나타낸 것이다.
▼ 표 1-7 문헌용어행렬(TF 기준)
|
회귀 |
분류 |
군집 |
탐색 |
절차 |
오픈 소스 |
문헌 1 |
24 |
21 |
9 |
0 |
0 |
3 |
문헌 2 |
32 |
10 |
5 |
0 |
3 |
0 |
문헌 3 |
12 |
16 |
5 |
0 |
0 |
0 |
문헌 4 |
6 |
7 |
2 |
0 |
0 |
0 |
문헌 5 |
43 |
31 |
20 |
0 |
3 |
0 |
문헌 6 |
2 |
0 |
0 |
18 |
7 |
6 |
문헌 7 |
0 |
0 |
1 |
32 |
12 |
0 |
문헌 8 |
3 |
0 |
0 |
22 |
4 |
4 |
문헌 9 |
1 |
0 |
0 |
34 |
27 |
25 |
문헌 10 |
6 |
0 |
0 |
17 |
4 |
23 |
이때 TF의 경우, 값이 모든 문헌에서 크면 좋다고 볼 수 있지만 사실 특정 문헌을 식별하는 능력은 없다고 볼 수도 있다. 우리가 정보라고 부르는 것은 변동이 있을 때 발생한다. 텍스트 마이닝의 대상이 되는 단어 역시 모든 문헌에서 똑같이 발생한다면 코퍼스 내의 문헌별로 차이가 없어서 오히려 중요도가 떨어진다. 따라서 TF 값 중에서 모든 문헌에서 나타난 경우에는 가중치를 통해 덜 중요하게 만들 수 있다. 이때 적용되는 가중치를 역문헌 빈도, 그리고 그 결과를 빈도-역문헌 빈도(TF-IDF)라 부른다.