2 단어 벡터화하기
단어의 벡터 표현에서는 단어 가방 모형(BOW)을 자주 쓰며 CountVectorizer(), TfidfVectorizer(), HashingVectorizer(), DictVectorizer() 등을 사용한다. 이미 5장에서 TfidfVectorizer(), 6장에서 CountVectorizer()로 벡터화를 실습했다. 이번 장에서는 CountVectorizer()로 다시 한번 벡터화를 연습하면서 더 자세히 알아보자.
단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 벡터를 생성한다. 이 과정은 다음과 같은 순서로, 다음 매개 변수를 사용해 진행한다.4 매개 변수는 6장에서도 설명했으나 복습할 겸 다시 한번 정리했다.