더북(TheBook)

LESSON OT
들어가며

이 장에서는 텍스트 분석에 널리 쓰이는 분석 방법인 단어 가방(Bag of Words, BOW) 모형과 TF-IDF(Term Frequency-Inverse Document Frequency) 방법을 살펴본다. 단어 가방 모형은 단어의 순서를 고려하지 않고 중복 발생 빈도를 중요하게 취급하는 방법이다. 단어 가방이라는 비유적 표현을 사용한 것은 주머니에서 공을 꺼내거나 가방에서 단어 카드를 꺼내는 방식처럼 계산하기 때문이다. TF-IDF에서 TF나 IDF도 출현 빈도를 고려해 가중치를 적용하는 방법이다. 먼저 단어 가방 모형부터 알아보자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.