더북(TheBook)

LESSON 02
TF-IDF

빈도만 고려해 단어 가방 모형을 만들면 빈도수가 높은 단어일수록 중요한 단어라고 생각할 수 있다. 하지만 앞에서 살펴본 것처럼 빈도가 유난히 높은 단어가 불용어일 수도 있고, 전체 문서에는 자주 등장하지 않지만 특정 문서에는 유난히 자주 등장하는 단어가 중요한 단어일 수도 있다. 예를 들어 뉴스 기사를 분석할 때 ‘파이썬’이라는 단어는 전체 기사에는 자주 등장하지 않지만, 특정 기사에서는 자주 등장한다. 이럴 때 특정 문서에만 자주 등장하는 단어에 대해 가중치를 더 높게 주면 어떨까? 이를 알아보기 위해 한국어 위키피디아에서 ‘동물’과 ‘철학’을 검색한 결과의 단어 빈도를 세어 봤다. 의미 있는 단어로 두 번 이상 등장한 단어를 보면 문서 A에서는 ‘동물’과 ‘의미’이고, 문서 B에서는 ‘지식’ 정도다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.