모두의 한국어 텍스트 분석 with 파이썬: 6 단어 벡터화하기

특성 벡터(feature vector)가 출력됐다. 벡터값은 사람이 보기에 그 의미를 직관적으로 알기 어렵다. 학습과 시험 데이터 세트 모두 판다스의 데이터 프레임 형태로 반환된 희소 행렬을 출력한 뒤, get_feature_names_out()을 사용해서 단어-문서 행렬에 등장하는 순서대로 단어 사전을 반환하자. 그러면 문서에 등장하는 단어의 빈도수를 알 수 있을 것이다.

vocab = vectorizer.get_feature_names_out()
print(len(vocab))
vocab[:10]

실행 결과

2000
array(['aid', 'and', 'article', 'articleview', 'articleview html',
       'articleview html idxno', 'cctv를', 'co', 'co kr', 'co kr news'],
       dtype=object)

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.