그러나 어떤 단어에 대한 TF-IDF 값인지 확인하기 어렵다. 단어 가방을 만들었을 때처럼 판다스의 데이터 프레임 형태로 변환하면 단어 사전과 함께 행렬을 볼 수 있다. 판다스의 style.background_gradient()를 사용해 해당 단어마다 TF-IDF 값을 비교하면 단어 빈도만이 아닌 가중치가 적용됐음을 비교해 볼 수 있다.
# display_transform_dtm으로 변환 결과를 확인한다. vocab = tfidfvect.get_feature_names_out() df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab) print("단어 수 : ", len(vocab)) print(vocab) display(df_dtm.style.background_gradient())
실행 결과
단어 수 : ['거리두기와' '문의입니다' '상생지원금' '승강장' '요금' '운행시간과' '지하철' '코로나' '택시']
|
거리두기와 |
문의입니다 |
상생지원금 |
승강장 |
요금 |
운행시간과 |
지하철 |
코로나 |
택시 |
0 |
0.399288 |
0.208365 |
0.399288 |
0.000000 |
0.000000 |
0.000000 |
0.000000 |
0.798575 |
0.000000 |
1 |
0.000000 |
0.239219 |
0.000000 |
0.000000 |
0.458412 |
0.458412 |
0.722835 |
0.000000 |
0.000000 |
2 |
0.000000 |
0.423897 |
0.000000 |
0.640434 |
0.000000 |
0.000000 |
0.640434 |
0.000000 |
0.000000 |
3 |
0.000000 |
0.379192 |
0.000000 |
0.572892 |
0.000000 |
0.000000 |
0.000000 |
0.000000 |
0.726641 |