더북(TheBook)

그러나 어떤 단어에 대한 TF-IDF 값인지 확인하기 어렵다. 단어 가방을 만들었을 때처럼 판다스의 데이터 프레임 형태로 변환하면 단어 사전과 함께 행렬을 볼 수 있다. 판다스의 style.background_gradient()를 사용해 해당 단어마다 TF-IDF 값을 비교하면 단어 빈도만이 아닌 가중치가 적용됐음을 비교해 볼 수 있다.

# display_transform_dtm으로 변환 결과를 확인한다.
vocab = tfidfvect.get_feature_names_out()
df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
print("단어  : ", len(vocab))
print(vocab)
display(df_dtm.style.background_gradient())

실행 결과

단어 수 :  
['거리두기와' '문의입니다' '상생지원금' '승강장' '요금' '운행시간과' '지하철' '코로나' '택시']

 

거리두기와

문의입니다

상생지원금

승강장

요금

운행시간과

지하철

코로나

택시

0

0.399288

0.208365

0.399288

0.000000

0.000000

0.000000

0.000000

0.798575

0.000000

1

0.000000

0.239219

0.000000

0.000000

0.458412

0.458412

0.722835

0.000000

0.000000

2

0.000000

0.423897

0.000000

0.640434

0.000000

0.000000

0.640434

0.000000

0.000000

3

0.000000

0.379192

0.000000

0.572892

0.000000

0.000000

0.000000

0.000000

0.726641

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.