표 1-8은 TF-IDF 기준으로 표현한 결과다. TF 기준으로 하는 표 1-7에서 ‘회귀’ 단어는 문헌 10개 중 9개에서 0보다 큰 값을 갖고 특히 4개에서는 꽤 높은 값을 가졌지만, TF-IDF 기준으로는 그 값이 전체적으로 작게 조정된 것을 볼 수 있다. 반면에 ‘분류’는 원래 ‘회귀’보다 TF 값이 작았으나 TF-IDF로 조정된 값은 더 커진 것을 볼 수 있다.

    ▼ 표 1-8 문헌용어행렬(TF-IDF 기준)

     

    회귀

    분류

    군집

    탐색

    절차

    오픈 소스

    문헌 1

    2.53

    14.6

    4.6

    0

    0

    2.1

    문헌 2

    3.3

    6.7

    2.6

    0

    1.0

    0

    문헌 3

    1.3

    11.1

    2.6

    0

    0

    0

    문헌 4

    0.7

    4.9

    1.0

    0

    0

    0

    문헌 5

    4.5

    21.5

    10.2

    0

    1.0

    0

    문헌 6

    0.2

    0

    0

    12.5

    2.5

    11.1

    문헌 7

    0

    0

    0.5

    22.2

    4.3

    0

    문헌 8

    0.3

    0

    0

    15.2

    1.4

    1.4

    문헌 9

    0.1

    0

    0

    23.56

    9.6

    17.3

    문헌 10

    0.6

    0

    0

    11.8

    1.4

    16.0

    이처럼 대표적인 비정형 데이터인 텍스트를 분석할 때는 결국 행과 열을 갖는 정형 데이터로 만드는 과정이 필수이다. 그리고 ‘정형화’된 데이터를 나타내는 방법도 같이 살펴보았다. 이제는 이러한 데이터를 파이썬으로 어떻게 나타낼 수 있는지 알아보자.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.