더북(TheBook)

get_feature_names()로 단어 목록을 가져와서 사전을 만들어 cv_cols에 넣어 준다.

cv_cols = cv.get_feature_names()

벡터를 표현하려면 단어 가방에 있는 모든 단어를 행렬값으로 나타내야 한다. toarray()로 희소 행렬을 NumPy array 배열로 변환하고 값을 확인한다.

pd.DataFrame(dtm_cv.toarray(), columns=cv_cols).sum().sort_values()

실행 결과

03월      1
용액속에  1
용액을    1
용액이    1
용어      1
       ... 
대한      394
서울시    578
어떻게    597
있습니다  685
있는      718
Length: 56651, dtype: int64
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.