머신 러닝을 위한 수학 with 파이썬, R: 1.4.1 텍스트 마이닝으로 살펴본 비정형 데이터의 분석

5단계: DTM 생성하기

이제 이렇게 정리된 코퍼스를 대상으로 문헌별 각 용어가 얼마나 나왔는지를 알려주는 DTM을 생성한다. 이 행렬을 생성하려면 지금까지 정리된 코퍼스에서 나타난 모든 단어를 행렬의 열로 배치하고, 코퍼스의 모든 문헌을 행으로 배치한 후 각 해당되는 값을 채우면 된다. 이때 다양한 경우로 값을 채울 수 있다. 각 문헌에서 각 용어가 나타난 빈도(Term Frequency, TF)이거나 용어 빈도에 가중치를 적용한 값(Term Frequency-Inverse Document Frequency, TF-IDF)이거나 또는 출현 여부로 0과 1로 나타낸 값 등이다.

표 1-7은 문헌 10개를 TF 기준으로 나타낸 것이다.

▼ 표 1-7 문헌용어행렬(TF 기준)

	회귀	분류	군집	탐색	절차	오픈 소스
문헌 1	24	21	9	0	0	3
문헌 2	32	10	5	0	3	0
문헌 3	12	16	5	0	0	0
문헌 4	6	7	2	0	0	0
문헌 5	43	31	20	0	3	0
문헌 6	2	0	0	18	7	6
문헌 7	0	0	1	32	12	0
문헌 8	3	0	0	22	4	4
문헌 9	1	0	0	34	27	25
문헌 10	6	0	0	17	4	23

이때 TF의 경우, 값이 모든 문헌에서 크면 좋다고 볼 수 있지만 사실 특정 문헌을 식별하는 능력은 없다고 볼 수도 있다. 우리가 정보라고 부르는 것은 변동이 있을 때 발생한다. 텍스트 마이닝의 대상이 되는 단어 역시 모든 문헌에서 똑같이 발생한다면 코퍼스 내의 문헌별로 차이가 없어서 오히려 중요도가 떨어진다. 따라서 TF 값 중에서 모든 문헌에서 나타난 경우에는 가중치를 통해 덜 중요하게 만들 수 있다. 이때 적용되는 가중치를 역문헌 빈도, 그리고 그 결과를 빈도-역문헌 빈도(TF-IDF)라 부른다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.