A와 B에 모두 많이 등장한 단어는 ‘문장 부호(SS)’와 ‘는(ETD)’이다. 문장 부호나 문법적 의미만 지니는 ‘는’이 문서 분류에서 주요 단어라고 생각하는 사람은 거의 없을 것이다. 이러한 직관과 가깝게 각 문서의 특성을 구분할 수 있는 단어는 높은 가중치를 주고, 그렇지 않은 단어는 낮은 가중치를 주는 데 TF-IDF를 유용하게 사용할 수 있다.
다음은 TF, DF, IDF, TF-IDF를 구분해 정리한 표다.
표 4-4 | TF, DF, IDF, TF-IDF
구분 |
의미 |
내용 |
TF |
단어 빈도, Term Frequency |
• 특정한 단어가 문서 안에 얼마나 자주 등장하는지를 나타내는 값 • 이 값이 높을수록 문서에서 중요하다고 생각할 수 있음 |
DF |
문서 빈도, Document Frequency |
• 특정 단어가 등장한 문서의 수 • 단어 자체가 문서군 안에서 자주 사용되고, 흔하게 등장한다는 의미 |
IDF |
역문서 빈도, Inverse Document Frequency |
• DF의 역수로 DF에 반비례하는 수 |
TF-IDF |
TF와 IDF를 곱한 값 |
• 대부분의 문서에 자주 등장하는 단어는 낮은 중요도로 계산 • 특정 문서에만 자주 등장하는 단어는 높은 중요도로 계산 |