더북(TheBook)
# T는 가로로 길게 보이기 위해 추가한 것으로 
# 행과 열의 위치를 바꾸는 전치행렬 기능이다.
df_dtm.sum().to_frame().T

실행 결과

 

거리두기와

문의입니다

상생지원금

승강장

요금

운행시간과

지하철

코로나

택시

0

1

4

1

2

1

1

3

2

1

 

각 단어가 문서에 등장하는 빈도수로 표현되기 때문에 직관적이다. 그러나 전체 단어 사전을 행렬로 만들기 때문에 희소 행렬로 만들어져 계산 효율이 낮고 앞뒤 맥락을 잃어버린다는 단점이 있다. 이러한 단점을 보완하는 n-gram, min_df, max_df 등 몇 가지 기법이 있는데, 이에 대해 더 알아보자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.