cvect = CountVectorizer(ngram_range=(1, 3), min_df=0.2, max_df=5) dtm = cvect.fit_transform(corpus) vocab = cvect.get_feature_names_out() df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab) df_dtm
실행 결과
|
거리두기와 |
거리두기와 코로나 |
거리두기와 코로나 상생지원금 |
문의입니다 |
상생지원금 |
상생지원금 문의입니다 |
승강장 |
승강장 문의입니다 |
요금 |
요금 문의입니다 |
... |
지하철 운행시간과 |
지하철 운행시간과 지하철 |
코로나 |
코로나 거리두기와 |
코로나 거리두기와 코로나 |
코로나 상생지원금 |
코로나 상생지원금 문의입니다 |
택시 |
택시 승강장 |
택시 승강장 문의입니다 |
0 |
1 |
1 |
1 |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
... |
0 |
0 |
2 |
1 |
1 |
1 |
1 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
1 |
1 |
... |
1 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
2 |
0 |
0 |
0 |
1 |
0 |
0 |
1 |
1 |
0 |
0 |
... |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
3 |
0 |
0 |
0 |
1 |
0 |
0 |
1 |
1 |
0 |
0 |
... |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
1 |
1 |