5 max_features: 학습 단어 개수 제한
max_features는 학습할 단어의 개수를 제한한다.
바로 코드를 보자. corpus 중 빈도수가 가장 높은 순으로, 지정한 개수만큼 단어 사전을 만들어서 벡터라이저가 학습할 기능(어휘)의 양을 제한한 것이다.
# max_features: 개수만큼의 단어만 추출 cvect = CountVectorizer(ngram_range=(1, 3), min_df=1, max_df=1.0, max_features=10) dtm = cvect.fit_transform(corpus) vocab = cvect.get_feature_names_out() df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab) df_dtm
실행 결과
|
문의입니다 |
승강장 |
승강장 문의입니다 |
지하철 |
코로나 |
코로나 거리두기와 |
코로나 거리두기와 코로나 |
코로나 상생지원금 |
코로나 상생지원금 문의입니다 |
택시 |
0 |
1 |
0 |
0 |
0 |
2 |
1 |
1 |
1 |
1 |
0 |
1 |
1 |
0 |
0 |
2 |
0 |
0 |
0 |
0 |
0 |
0 |
2 |
1 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
3 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
max_features의 기본값은 None이다. 출력된 표는 max_features를 10으로 했을 때의 출력 결과다.