이번에는 CountVectorizer() 적용 결과를 배열로 변환해 보겠습니다.
코드 10-3 배열 변환
vect.transform(['you will never get any chance.']).toarray()
다음은 배열로 변환한 출력 결과입니다.
array([[0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1]], dtype=int64)
이번에는 불용어를 제거한 카운터 벡터를 확인해 보겠습니다.
코드 10-4 불용어를 제거한 카운터 벡터
vect = CountVectorizer(stop_words=["and", "is", "please", "this"]).fit(corpus) ------ stop_words를 사용하여 is, not, an 같은 불용어 제거
vect.vocabulary_
불용어를 제거한 카운터 벡터가 다음과 같이 출력됩니다.
{'last': 6,
'chance': 1,
'if': 5,
'you': 11,
'do': 2,
'not': 8,
'have': 4,
'will': 10,
'never': 7,
'get': 3,
'any': 0,
'one': 9}