더북(TheBook)

문서 빈도(Inverse Document Frequency, IDF): 이번에는 가지고 있는 모든 도서에서 ‘RAG’라는 단어가 들어 있는 책이 얼마나 드문지를 측정합니다. 예를 들어 30권의 책 중에서 ‘RAG’라는 단어가 2권의 책에만 나온다면, ‘RAG’는 매우 특별한 단어입니다. ‘RAG’의 IDF는 30을 2로 나눈 다음, 이 값에 로그를 취하여 계산합니다. 이렇게 하면 드문 단어일수록 더 높은 값이 나옵니다.

 

‘RAG’라는 단어가 한 권의 책에서 10번 나오고, 소유하고 있는 모든 도서 중 2권에만 들어 있다면 ‘RAG’의 TF-IDF 값은 다음과 같이 계산됩니다.

TF('RAG') = 10 (한 권의 책 내 RAG의 빈도)

IDF('RAG') = log(30 ÷ 2) = log(15)

TF-IDF('RAG') = 10 × log(15)

 

이 계산 결과 값이 크면 ‘RAG’라는 단어는 그 책에서 매우 중요하다는 것을 의미합니다. 이렇게 해서 ‘RAG’라는 단어가 얼마나 중요한지를 판단할 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.