더북(TheBook)

LESSON 05
벡터화하기

이제 빈도 계산을 위해 텍스트 데이터를 벡터화하자. 먼저 단어 가방 모형에 단어를 토큰화해서 담아야 한다. split()을 사용해 ‘파이썬 데이터 분석’이라는 텍스트를 토큰으로 분리한다.

"파이썬 데이터 분석".split()

실행 결과

['파이썬', '데이터', '분석']

 

사이킷런의 CountVectorizer()를 통해 벡터화한다. vectorizer라는 변수에 CountVectorizer()를 담는다. 전처리 도구를 만들었다면 preprocessor에서 처리할 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.