모두의 한국어 텍스트 분석 with 파이썬: 4 min_df와 max_df: 빈도수 설정

cvect = CountVectorizer(ngram_range=(1, 3), min_df=0.2, max_df=5)
dtm = cvect.fit_transform(corpus)
vocab = cvect.get_feature_names_out()
df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
df_dtm

실행 결과

	거리두기와	거리두기와 코로나	거리두기와 코로나 상생지원금	문의입니다	상생지원금	상생지원금 문의입니다	승강장	승강장 문의입니다	요금	요금 문의입니다	...	지하철 운행시간과	지하철 운행시간과 지하철	코로나	코로나 거리두기와	코로나 거리두기와 코로나	코로나 상생지원금	코로나 상생지원금 문의입니다	택시	택시 승강장	택시 승강장 문의입니다
0	1	1	1	1	1	1	0	0	0	0	...	0	0	2	1	1	1	1	0	0	0
1	0	0	0	1	0	0	0	0	1	1	...	1	1	0	0	0	0	0	0	0	0
2	0	0	0	1	0	0	1	1	0	0	...	0	0	0	0	0	0	0	0	0	0
3	0	0	0	1	0	0	1	1	0	0	...	0	0	0	0	0	0	0	1	1	1

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.