더북(TheBook)

이 결과에서는 ‘문의입니다’가 모두 1이라는 값을 갖지만, TF-IDF 가중치를 적용했을 때는 문서 가중치에 따라 다른 값을 갖는다. 그래서 단순히 빈도로 단어의 중요도를 표현하지 않고 문서 안에서 해당 단어의 중요도를 알 수 있다. ‘승강장’도 빈도로만 봤을 때는 차이가 없지만, TF-IDF 가중치를 적용했을 때는 다른 가중치를 갖는다. 다른 문서에는 등장하지 않는 ‘코로나’, ‘택시’의 경우 등장하는 특정 문서 안에서 가장 큰 가중치를 갖는다.

이 장에서는 간단한 코퍼스를 통해 빈도수에 따른 단어 가방, TF-IDF 가중치가 적용된 단어 가방을 만들어 보면서 단어 가방이 만들어지는 원리를 이해했다. 간단한 데이터를 다뤄 봤으니 이제 더 큰 데이터를 통해 단어를 수치 형태로 변환하는 방법을 알아보자. 다음 장부터는 실제 데이터를 가지고 실습해 보겠다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.