ngram_range를 (3, 6)으로 3~6개 토큰을 묶어서 사용했기 때문에 중복되는 강의가 있다. np.sum()으로 위에서 구한 단어 벡터를 더하면 단어가 전체에서 등장하는 횟수를 알 수 있으므로 단어 가방에 몇 개의 단어가 들어 있는지 확인할 수 있다.
dist = np.sum(feature_vector, axis=0) df_freq = pd.DataFrame(dist, columns=vocab) df_freq
실행 결과
|
12개 만들면서 배우는 |
12개 만들면서 배우는 ios |
12개 만들면서 배우는 ios 아이폰 |
12개 만들면서 배우는 ios 아이폰 개발 |
12개를 만들며 배우는 |
12개를 만들며 배우는 swift4 |
12개를 만들며 배우는 swift4 ios11 |
12개를 만들며 배우는 swift4 ios11 아이폰 |
2018 do it |
2018 do it 안드로이드 |
... |
활용2 api 개발과 성능 최적화 |
활용한 다양한 자동화 |
활용한 다양한 자동화 어플리케이션 |
활용한 다양한 자동화 어플리케이션 제작하기 |
활용한 데이터분석과 it보안 |
활용한 리액트 native |
활용한 리액트 native 개발 |
활용한 메신져 만들기 |
활용한 메신져 만들기 android |
활용한 파이썬 프로그래밍 |
0 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
... |
16 |
13 |
13 |
12 |
2 |
8 |
8 |
2 |
2 |
2 |
1 rows × 2000 columns