cvect = CountVectorizer(analyzer='char', 
                            ngram_range=(1, 5), min_df=2, 
                            max_df=1.0, max_features=30, 
                            stop_words=stop_words)
     
    dtm = cvect.fit_transform(corpus)
    vocab = cvect.get_feature_names_out()
    df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
    df_dtm

    실행 결과

     

     

    문의

    문의입

    문의입니

    .

    니다

    니다.

    ...

    의입니다.

    입니

    입니다

    입니다.

    하철

    0

    4

    1

    1

    1

    1

    1

    1

    1

    1

    1

    ...

    1

    1

    1

    1

    1

    1

    0

    0

    0

    0

    1

    4

    1

    1

    1

    1

    1

    1

    1

    1

    1

    ...

    1

    1

    1

    1

    1

    2

    2

    2

    2

    2

    2

    2

    1

    1

    1

    1

    1

    1

    1

    1

    1

    ...

    1

    1

    1

    1

    1

    1

    1

    1

    1

    1

    3

    2

    1

    1

    1

    1

    1

    1

    1

    1

    1

    ...

    1

    1

    1

    1

    1

    0

    0

    0

    0

    0

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.