더북(TheBook)

5 max_features: 학습 단어 개수 제한

 

max_features는 학습할 단어의 개수를 제한한다.

바로 코드를 보자. corpus 중 빈도수가 가장 높은 순으로, 지정한 개수만큼 단어 사전을 만들어서 벡터라이저가 학습할 기능(어휘)의 양을 제한한 것이다.

# max_features: 개수만큼의 단어만 추출
cvect = CountVectorizer(ngram_range=(1, 3), min_df=1, max_df=1.0, max_features=10)
dtm = cvect.fit_transform(corpus)
vocab = cvect.get_feature_names_out()
df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
df_dtm

실행 결과

 

문의입니다

승강장

승강장 문의입니다

지하철

코로나

코로나 거리두기와

코로나 거리두기와 코로나

코로나 상생지원금

코로나 상생지원금 문의입니다

택시

0

1

0

0

0

2

1

1

1

1

0

1

1

0

0

2

0

0

0

0

0

0

2

1

1

1

1

0

0

0

0

0

0

3

1

1

1

0

0

0

0

0

0

1

 

max_features의 기본값은 None이다. 출력된 표는 max_features를 10으로 했을 때의 출력 결과다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.