더북(TheBook)
cvect = CountVectorizer(analyzer='char', 
                        ngram_range=(1, 5), min_df=2, 
                        max_df=1.0, max_features=30, 
                        stop_words=stop_words)
 
dtm = cvect.fit_transform(corpus)
vocab = cvect.get_feature_names_out()
df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
df_dtm

실행 결과

 

 

문의

문의입

문의입니

.

니다

니다.

...

의입니다.

입니

입니다

입니다.

하철

0

4

1

1

1

1

1

1

1

1

1

...

1

1

1

1

1

1

0

0

0

0

1

4

1

1

1

1

1

1

1

1

1

...

1

1

1

1

1

2

2

2

2

2

2

2

1

1

1

1

1

1

1

1

1

...

1

1

1

1

1

1

1

1

1

1

3

2

1

1

1

1

1

1

1

1

1

...

1

1

1

1

1

0

0

0

0

0

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.