모두의 한국어 텍스트 분석 with 파이썬: 7 analyzer: 문자, 단어 단위 설정

cvect = CountVectorizer(analyzer='char', 
                        ngram_range=(1, 5), min_df=2, 
                        max_df=1.0, max_features=30, 
                        stop_words=stop_words)
 
dtm = cvect.fit_transform(corpus)
vocab = cvect.get_feature_names_out()
df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
df_dtm

실행 결과

		문	문의	문의입	문의입니	.	니	니다	니다.	다	...	의입니다.	입	입니	입니다	입니다.	지	철	철	하	하철
0	4	1	1	1	1	1	1	1	1	1	...	1	1	1	1	1	1	0	0	0	0
1	4	1	1	1	1	1	1	1	1	1	...	1	1	1	1	1	2	2	2	2	2
2	2	1	1	1	1	1	1	1	1	1	...	1	1	1	1	1	1	1	1	1	1
3	2	1	1	1	1	1	1	1	1	1	...	1	1	1	1	1	0	0	0	0	0

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.