더북(TheBook)

6 단어 벡터화하기

 

단어 벡터화는 4장에서 다룬 사이킷런의 CountVectorizer()를 사용할 것이다. CountVectorizer() 모듈은 토큰이 문서별로 몇 번 등장했는지 행렬로 정리해 준다.

 

analyzer = 'word': 낱글자(char)와 어절(word) 단위에서 선택할 수 있다. 이번 예제는 띄어쓰기로 구분할 것이므로 어절을 선택한다.

tokenizer = None: 토크나이저와 전처리 도구를 따로 지정하지 않을 때는 기본값인 None으로 둔다.

min_df = 2: 토큰이 나타날 최소 문서 개수다. 오타나 자주 나오지 않는 특수한 전문 용어를 제거하기에 좋다.

ngram_range: BOW의 단위를 지정할 수 있는데 이번 예제에서는 1~3개로 지정했다.

max_features: 만들 피처의 수를 말한다. 피처는 단어를 의미하므로 max_features로 최대 단어 수를 지정할 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.