실행 결과
CountVectorizer(max_features=2000, min_df=2, ngram_range=(3, 6))
모든 설정이 끝나면 df['course']만 벡터화한다. shape로 확인해 보면 course에 있는 단어로는 2,410개 행과 2,000개 열을 만들 수 있다.
feature_vector = vectorizer.fit_transform(df['course']) feature_vector.shape
실행 결과
(2410, 2000)
vectorizer에서 get_feature_names_out()으로 추출하면 단어가 3개에서 6개까지 묶여서 나온다. vocab[:5]로 단어 가방에 들어가는 배열(array) 형태도 확인할 수 있다.
vocab = vectorizer.get_feature_names_out() print(len(vocab)) vocab[:5]
실행 결과
2000 array(['12개 만들면서 배우는', '12개 만들면서 배우는 ios', '12개 만들면서 배우는 ios 아이폰', '12개 만들면서 배우는 ios 아이폰 개발', '12개를 만들며 배우는'], dtype=object)