더북(TheBook)

앞에서 corpus에 넣은 네 문서를 떠올려 보자. 첫 번째 문서는 ‘코로나 거리두기와 코로나 상생지원금 문의입니다.’이다. 여기에서 ‘코로나’라는 단어는 다른 문서에는 등장하지 않고 첫 번째 문서에만 등장하기 때문에 가중치가 높게 나온다. 반면에 ‘문의입니다’는 모든 문서에 등장하기 때문에 가중치가 낮게 나온다.

위 결과를 TF-IDF 가중치를 적용하지 않고 빈도수로만 만든 행렬과 비교해 보자. 4.1.2절 단어 가방 모형에서 확인한 결과는 다음과 같다.

 

표 4-5 | 단어 가방 모형 결과

 

거리두기와

문의입니다

상생지원금

승강장

요금

운행시간과

지하철

코로나

택시

0

1

1

1

0

0

0

0

2

0

1

0

1

0

0

1

1

2

0

0

2

0

1

0

1

0

0

1

0

0

3

0

1

0

1

0

0

0

0

1

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.