더북(TheBook)

이제 document-term matrix를 판다스의 데이터 프레임으로 만들어서 단어의 빈도를 확인할 수 있다.

df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
df_dtm

실행 결과

 

거리두기와

문의입니다

상생지원금

승강장

요금

운행시간과

지하철

코로나

택시

0

1

1

1

0

0

0

0

2

0

1

0

1

0

0

1

1

2

0

0

2

0

1

0

1

0

0

1

0

0

3

0

1

0

1

0

0

0

0

1

 

전체 문서에는 등장하지만, 해당 문서에는 등장하지 않는 단어는 0으로 표시된다. 예시 문서의 빈도수를 보면 첫 번째 문서에서 ‘코로나’라는 단어가 2번 등장하기 때문에 빈도수가 2로 표시되어 있다.

이제 전체 문서에서 단어 빈도의 합계를 구해 데이터가 간명하게 보이도록 요약한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.