특성 벡터(feature vector)가 출력됐다. 벡터값은 사람이 보기에 그 의미를 직관적으로 알기 어렵다. 학습과 시험 데이터 세트 모두 판다스의 데이터 프레임 형태로 반환된 희소 행렬을 출력한 뒤, get_feature_names_out()을 사용해서 단어-문서 행렬에 등장하는 순서대로 단어 사전을 반환하자. 그러면 문서에 등장하는 단어의 빈도수를 알 수 있을 것이다.
vocab = vectorizer.get_feature_names_out() print(len(vocab)) vocab[:10]
실행 결과
2000 array(['aid', 'and', 'article', 'articleview', 'articleview html', 'articleview html idxno', 'cctv를', 'co', 'co kr', 'co kr news'], dtype=object)