더북(TheBook)

이제 document-term matrix를 판다스의 데이터 프레임으로 만들어서 단어의 빈도를 확인할 수 있다.

df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
df_dtm

실행 결과

 

거리두기와

문의입니다

상생지원금

승강장

요금

운행시간과

지하철

코로나

택시

0

1

1

1

0

0

0

0

2

0

1

0

1

0

0

1

1

2

0

0

2

0

1

0

1

0

0

1

0

0

3

0

1

0

1

0

0

0

0

1

 

전체 문서에는 등장하지만, 해당 문서에는 등장하지 않는 단어는 0으로 표시된다. 예시 문서의 빈도수를 보면 첫 번째 문서에서 ‘코로나’라는 단어가 2번 등장하기 때문에 빈도수가 2로 표시되어 있다.

이제 전체 문서에서 단어 빈도의 합계를 구해 데이터가 간명하게 보이도록 요약한다.