딥러닝 텐서플로 교과서: 10.1.2 횟수 기반 임베딩

이번에는 CountVectorizer() 적용 결과를 배열로 변환해 보겠습니다.

코드 10-3 배열 변환

vect.transform(['you will never get any chance.']).toarray()

다음은 배열로 변환한 출력 결과입니다.

array([[0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1]], dtype=int64)

이번에는 불용어를 제거한 카운터 벡터를 확인해 보겠습니다.

코드 10-4 불용어를 제거한 카운터 벡터

vect = CountVectorizer(stop_words=["and", "is", "please", "this"]).fit(corpus) ------ stop_words를 사용하여 is, not, an 같은 불용어 제거
vect.vocabulary_

불용어를 제거한 카운터 벡터가 다음과 같이 출력됩니다.

{'last': 6,
 'chance': 1,
 'if': 5,
 'you': 11,
 'do': 2,
 'not': 8,
 'have': 4,
 'will': 10,
 'never': 7,
 'get': 3,
 'any': 0,
 'one': 9}

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.