앞에서 corpus에 넣은 네 문서를 떠올려 보자. 첫 번째 문서는 ‘코로나 거리두기와 코로나 상생지원금 문의입니다.’이다. 여기에서 ‘코로나’라는 단어는 다른 문서에는 등장하지 않고 첫 번째 문서에만 등장하기 때문에 가중치가 높게 나온다. 반면에 ‘문의입니다’는 모든 문서에 등장하기 때문에 가중치가 낮게 나온다.
위 결과를 TF-IDF 가중치를 적용하지 않고 빈도수로만 만든 행렬과 비교해 보자. 4.1.2절 단어 가방 모형에서 확인한 결과는 다음과 같다.
표 4-5 | 단어 가방 모형 결과
|
거리두기와 |
문의입니다 |
상생지원금 |
승강장 |
요금 |
운행시간과 |
지하철 |
코로나 |
택시 |
0 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
2 |
0 |
1 |
0 |
1 |
0 |
0 |
1 |
1 |
2 |
0 |
0 |
2 |
0 |
1 |
0 |
1 |
0 |
0 |
1 |
0 |
0 |
3 |
0 |
1 |
0 |
1 |
0 |
0 |
0 |
0 |
1 |