get_feature_names()로 단어 목록을 가져와서 사전을 만들어 cv_cols에 넣어 준다.
cv_cols = cv.get_feature_names()
벡터를 표현하려면 단어 가방에 있는 모든 단어를 행렬값으로 나타내야 한다. toarray()로 희소 행렬을 NumPy array 배열로 변환하고 값을 확인한다.
pd.DataFrame(dtm_cv.toarray(), columns=cv_cols).sum().sort_values()
실행 결과
03월 1
용액속에 1
용액을 1
용액이 1
용어 1
...
대한 394
서울시 578
어떻게 597
있습니다 685
있는 718
Length: 56651, dtype: int64