머신 러닝을 위한 수학 with 파이썬, R: 1.4.1 텍스트 마이닝으로 살펴본 비정형 데이터의 분석

표 1-8은 TF-IDF 기준으로 표현한 결과다. TF 기준으로 하는 표 1-7에서 ‘회귀’ 단어는 문헌 10개 중 9개에서 0보다 큰 값을 갖고 특히 4개에서는 꽤 높은 값을 가졌지만, TF-IDF 기준으로는 그 값이 전체적으로 작게 조정된 것을 볼 수 있다. 반면에 ‘분류’는 원래 ‘회귀’보다 TF 값이 작았으나 TF-IDF로 조정된 값은 더 커진 것을 볼 수 있다.

▼ 표 1-8 문헌용어행렬(TF-IDF 기준)

	회귀	분류	군집	탐색	절차	오픈 소스
문헌 1	2.53	14.6	4.6	0	0	2.1
문헌 2	3.3	6.7	2.6	0	1.0	0
문헌 3	1.3	11.1	2.6	0	0	0
문헌 4	0.7	4.9	1.0	0	0	0
문헌 5	4.5	21.5	10.2	0	1.0	0
문헌 6	0.2	0	0	12.5	2.5	11.1
문헌 7	0	0	0.5	22.2	4.3	0
문헌 8	0.3	0	0	15.2	1.4	1.4
문헌 9	0.1	0	0	23.56	9.6	17.3
문헌 10	0.6	0	0	11.8	1.4	16.0

이처럼 대표적인 비정형 데이터인 텍스트를 분석할 때는 결국 행과 열을 갖는 정형 데이터로 만드는 과정이 필수이다. 그리고 ‘정형화’된 데이터를 나타내는 방법도 같이 살펴보았다. 이제는 이러한 데이터를 파이썬으로 어떻게 나타낼 수 있는지 알아보자.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.