더북(TheBook)

5단계: DTM 생성하기

이제 이렇게 정리된 코퍼스를 대상으로 문헌별 각 용어가 얼마나 나왔는지를 알려주는 DTM을 생성한다. 이 행렬을 생성하려면 지금까지 정리된 코퍼스에서 나타난 모든 단어를 행렬의 열로 배치하고, 코퍼스의 모든 문헌을 행으로 배치한 후 각 해당되는 값을 채우면 된다. 이때 다양한 경우로 값을 채울 수 있다. 각 문헌에서 각 용어가 나타난 빈도(Term Frequency, TF)이거나 용어 빈도에 가중치를 적용한 값(Term Frequency-Inverse Document Frequency, TF-IDF)이거나 또는 출현 여부로 0과 1로 나타낸 값 등이다.

표 1-7은 문헌 10개를 TF 기준으로 나타낸 것이다.

▼ 표 1-7 문헌용어행렬(TF 기준)

 

회귀

분류

군집

탐색

절차

오픈 소스

문헌 1

24

21

9

0

0

3

문헌 2

32

10

5

0

3

0

문헌 3

12

16

5

0

0

0

문헌 4

6

7

2

0

0

0

문헌 5

43

31

20

0

3

0

문헌 6

2

0

0

18

7

6

문헌 7

0

0

1

32

12

0

문헌 8

3

0

0

22

4

4

문헌 9

1

0

0

34

27

25

문헌 10

6

0

0

17

4

23

이때 TF의 경우, 값이 모든 문헌에서 크면 좋다고 볼 수 있지만 사실 특정 문헌을 식별하는 능력은 없다고 볼 수도 있다. 우리가 정보라고 부르는 것은 변동이 있을 때 발생한다. 텍스트 마이닝의 대상이 되는 단어 역시 모든 문헌에서 똑같이 발생한다면 코퍼스 내의 문헌별로 차이가 없어서 오히려 중요도가 떨어진다. 따라서 TF 값 중에서 모든 문헌에서 나타난 경우에는 가중치를 통해 덜 중요하게 만들 수 있다. 이때 적용되는 가중치를 역문헌 빈도, 그리고 그 결과를 빈도-역문헌 빈도(TF-IDF)라 부른다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.