cvect = CountVectorizer(analyzer='char', ngram_range=(1, 5), min_df=2, max_df=1.0, max_features=30, stop_words=stop_words) dtm = cvect.fit_transform(corpus) vocab = cvect.get_feature_names_out() df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab) df_dtm
실행 결과
|
|
문 |
문의 |
문의입 |
문의입니 |
. |
니 |
니다 |
니다. |
다 |
... |
의입니다. |
입 |
입니 |
입니다 |
입니다. |
지 |
철 |
철 |
하 |
하철 |
0 |
4 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
... |
1 |
1 |
1 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
1 |
4 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
... |
1 |
1 |
1 |
1 |
1 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
... |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
3 |
2 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
... |
1 |
1 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
0 |