이번에는 CountVectorizer() 적용 결과를 배열로 변환해 보겠습니다.

    코드 10-3 배열 변환

    vect.transform(['you will never get any chance.']).toarray()

    다음은 배열로 변환한 출력 결과입니다.

    array([[0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1]], dtype=int64)

    이번에는 불용어를 제거한 카운터 벡터를 확인해 보겠습니다.

    코드 10-4 불용어를 제거한 카운터 벡터

    vect = CountVectorizer(stop_words=["and", "is", "please", "this"]).fit(corpus) ------ stop_words를 사용하여 is, not, an 같은 불용어 제거
    vect.vocabulary_

    불용어를 제거한 카운터 벡터가 다음과 같이 출력됩니다.

    {'last': 6,
     'chance': 1,
     'if': 5,
     'you': 11,
     'do': 2,
     'not': 8,
     'have': 4,
     'will': 10,
     'never': 7,
     'get': 3,
     'any': 0,
     'one': 9}
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.