더북(TheBook)

실행 결과

CountVectorizer(max_features=2000, min_df=2, ngram_range=(3, 6))

 

모든 설정이 끝나면 df['course']만 벡터화한다. shape로 확인해 보면 course에 있는 단어로는 2,410개 행과 2,000개 열을 만들 수 있다.

feature_vector = vectorizer.fit_transform(df['course'])
feature_vector.shape

실행 결과

(2410, 2000)

 

vectorizer에서 get_feature_names_out()으로 추출하면 단어가 3개에서 6개까지 묶여서 나온다. vocab[:5]로 단어 가방에 들어가는 배열(array) 형태도 확인할 수 있다.

vocab = vectorizer.get_feature_names_out()
print(len(vocab))
vocab[:5]

실행 결과

2000
array(['12개 만들면서 배우는', '12개 만들면서 배우는 ios', '12개 만들면서 배우는 ios 아이폰', '12개 만들면서 배우는 ios 아이폰 개발', '12개를 만들며 배우는'], dtype=object)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.