더북(TheBook)

TF-IDF

다음으로 TF-IDF(Term Frequency-Inverse Document Frequency) 방식이 있습니다. 이 방식은 문서에서 특정 단어가 나타나는 단어 빈도(TF)와 그 단어가 전체 문서에서 얼마나 드물게 나타나는지에 대한 문서 빈도(IDF)를 계산하여 랭킹을 매깁니다.

▲ 그림 3-12 TF-IDF

TF-IDF 값이 높은 문서는 쿼리와 더 관련이 높다고 간주됩니다. 무슨 의미인지 이해하기 어렵다면 다음의 예시로 자세히 살펴보겠습니다. 진희는 시험을 앞두고 공부하던 중 특정 단어 ‘RAG’를 찾아야 하는 상황이 발생했습니다.

단어 빈도(Term Frequency, TF): ‘RAG’라는 단어가 한 권의 책에 얼마나 자주 나오는지 세는 것입니다. 예를 들어 한 권의 책에서 ‘RAG’라는 단어가 10번 나왔다면 이 책에서 ‘RAG’의 TF는 10입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.