더북(TheBook)

A와 B에 모두 많이 등장한 단어는 ‘문장 부호(SS)’와 ‘는(ETD)’이다. 문장 부호나 문법적 의미만 지니는 ‘는’이 문서 분류에서 주요 단어라고 생각하는 사람은 거의 없을 것이다. 이러한 직관과 가깝게 각 문서의 특성을 구분할 수 있는 단어는 높은 가중치를 주고, 그렇지 않은 단어는 낮은 가중치를 주는 데 TF-IDF를 유용하게 사용할 수 있다.

다음은 TF, DF, IDF, TF-IDF를 구분해 정리한 표다.

 

표 4-4 | TF, DF, IDF, TF-IDF

구분

의미

내용

TF

단어 빈도, Term Frequency

• 특정한 단어가 문서 안에 얼마나 자주 등장하는지를 나타내는 값

• 이 값이 높을수록 문서에서 중요하다고 생각할 수 있음

DF

문서 빈도,

Document Frequency

• 특정 단어가 등장한 문서의 수

• 단어 자체가 문서군 안에서 자주 사용되고, 흔하게 등장한다는 의미

IDF

역문서 빈도,

Inverse Document Frequency

• DF의 역수로 DF에 반비례하는 수

TF-IDF

TF와 IDF를 곱한 값

• 대부분의 문서에 자주 등장하는 단어는 낮은 중요도로 계산

• 특정 문서에만 자주 등장하는 단어는 높은 중요도로 계산

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.