모두의 한국어 텍스트 분석 with 파이썬: 1 TF-IDF 가중치를 적용하는 방법

앞에서 corpus에 넣은 네 문서를 떠올려 보자. 첫 번째 문서는 ‘코로나 거리두기와 코로나 상생지원금 문의입니다.’이다. 여기에서 ‘코로나’라는 단어는 다른 문서에는 등장하지 않고 첫 번째 문서에만 등장하기 때문에 가중치가 높게 나온다. 반면에 ‘문의입니다’는 모든 문서에 등장하기 때문에 가중치가 낮게 나온다.

위 결과를 TF-IDF 가중치를 적용하지 않고 빈도수로만 만든 행렬과 비교해 보자. 4.1.2절 단어 가방 모형에서 확인한 결과는 다음과 같다.

표 4-5 | 단어 가방 모형 결과

	거리두기와	문의입니다	상생지원금	승강장	요금	운행시간과	지하철	코로나	택시
0	1	1	1	0	0	0	0	2	0
1	0	1	0	0	1	1	2	0	0
2	0	1	0	1	0	0	1	0	0
3	0	1	0	1	0	0	0	0	1

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.