# T는 가로로 길게 보이기 위해 추가한 것으로 
    # 행과 열의 위치를 바꾸는 전치행렬 기능이다.
    df_dtm.sum().to_frame().T

    실행 결과

     

    거리두기와

    문의입니다

    상생지원금

    승강장

    요금

    운행시간과

    지하철

    코로나

    택시

    0

    1

    4

    1

    2

    1

    1

    3

    2

    1

     

    각 단어가 문서에 등장하는 빈도수로 표현되기 때문에 직관적이다. 그러나 전체 단어 사전을 행렬로 만들기 때문에 희소 행렬로 만들어져 계산 효율이 낮고 앞뒤 맥락을 잃어버린다는 단점이 있다. 이러한 단점을 보완하는 n-gram, min_df, max_df 등 몇 가지 기법이 있는데, 이에 대해 더 알아보자.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.