표 1-8은 TF-IDF 기준으로 표현한 결과다. TF 기준으로 하는 표 1-7에서 ‘회귀’ 단어는 문헌 10개 중 9개에서 0보다 큰 값을 갖고 특히 4개에서는 꽤 높은 값을 가졌지만, TF-IDF 기준으로는 그 값이 전체적으로 작게 조정된 것을 볼 수 있다. 반면에 ‘분류’는 원래 ‘회귀’보다 TF 값이 작았으나 TF-IDF로 조정된 값은 더 커진 것을 볼 수 있다.
▼ 표 1-8 문헌용어행렬(TF-IDF 기준)
|
회귀 |
분류 |
군집 |
탐색 |
절차 |
오픈 소스 |
문헌 1 |
2.53 |
14.6 |
4.6 |
0 |
0 |
2.1 |
문헌 2 |
3.3 |
6.7 |
2.6 |
0 |
1.0 |
0 |
문헌 3 |
1.3 |
11.1 |
2.6 |
0 |
0 |
0 |
문헌 4 |
0.7 |
4.9 |
1.0 |
0 |
0 |
0 |
문헌 5 |
4.5 |
21.5 |
10.2 |
0 |
1.0 |
0 |
문헌 6 |
0.2 |
0 |
0 |
12.5 |
2.5 |
11.1 |
문헌 7 |
0 |
0 |
0.5 |
22.2 |
4.3 |
0 |
문헌 8 |
0.3 |
0 |
0 |
15.2 |
1.4 |
1.4 |
문헌 9 |
0.1 |
0 |
0 |
23.56 |
9.6 |
17.3 |
문헌 10 |
0.6 |
0 |
0 |
11.8 |
1.4 |
16.0 |
이처럼 대표적인 비정형 데이터인 텍스트를 분석할 때는 결국 행과 열을 갖는 정형 데이터로 만드는 과정이 필수이다. 그리고 ‘정형화’된 데이터를 나타내는 방법도 같이 살펴보았다. 이제는 이러한 데이터를 파이썬으로 어떻게 나타낼 수 있는지 알아보자.