모두의 한국어 텍스트 분석 with 파이썬: 5 max

5 max_features: 학습 단어 개수 제한

max_features는 학습할 단어의 개수를 제한한다.

바로 코드를 보자. corpus 중 빈도수가 가장 높은 순으로, 지정한 개수만큼 단어 사전을 만들어서 벡터라이저가 학습할 기능(어휘)의 양을 제한한 것이다.

# max_features: 개수만큼의 단어만 추출
cvect = CountVectorizer(ngram_range=(1, 3), min_df=1, max_df=1.0, max_features=10)
dtm = cvect.fit_transform(corpus)
vocab = cvect.get_feature_names_out()
df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
df_dtm

실행 결과

	문의입니다	승강장	승강장 문의입니다	지하철	코로나	코로나 거리두기와	코로나 거리두기와 코로나	코로나 상생지원금	코로나 상생지원금 문의입니다	택시
0	1	0	0	0	2	1	1	1	1	0
1	1	0	0	2	0	0	0	0	0	0
2	1	1	1	1	0	0	0	0	0	0
3	1	1	1	0	0	0	0	0	0	1

max_features의 기본값은 None이다. 출력된 표는 max_features를 10으로 했을 때의 출력 결과다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.