더북(TheBook)

표 1-8은 TF-IDF 기준으로 표현한 결과다. TF 기준으로 하는 표 1-7에서 ‘회귀’ 단어는 문헌 10개 중 9개에서 0보다 큰 값을 갖고 특히 4개에서는 꽤 높은 값을 가졌지만, TF-IDF 기준으로는 그 값이 전체적으로 작게 조정된 것을 볼 수 있다. 반면에 ‘분류’는 원래 ‘회귀’보다 TF 값이 작았으나 TF-IDF로 조정된 값은 더 커진 것을 볼 수 있다.

▼ 표 1-8 문헌용어행렬(TF-IDF 기준)

 

회귀

분류

군집

탐색

절차

오픈 소스

문헌 1

2.53

14.6

4.6

0

0

2.1

문헌 2

3.3

6.7

2.6

0

1.0

0

문헌 3

1.3

11.1

2.6

0

0

0

문헌 4

0.7

4.9

1.0

0

0

0

문헌 5

4.5

21.5

10.2

0

1.0

0

문헌 6

0.2

0

0

12.5

2.5

11.1

문헌 7

0

0

0.5

22.2

4.3

0

문헌 8

0.3

0

0

15.2

1.4

1.4

문헌 9

0.1

0

0

23.56

9.6

17.3

문헌 10

0.6

0

0

11.8

1.4

16.0

이처럼 대표적인 비정형 데이터인 텍스트를 분석할 때는 결국 행과 열을 갖는 정형 데이터로 만드는 과정이 필수이다. 그리고 ‘정형화’된 데이터를 나타내는 방법도 같이 살펴보았다. 이제는 이러한 데이터를 파이썬으로 어떻게 나타낼 수 있는지 알아보자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.