5 max_features: 학습 단어 개수 제한

     

    max_features는 학습할 단어의 개수를 제한한다.

    바로 코드를 보자. corpus 중 빈도수가 가장 높은 순으로, 지정한 개수만큼 단어 사전을 만들어서 벡터라이저가 학습할 기능(어휘)의 양을 제한한 것이다.

    # max_features: 개수만큼의 단어만 추출
    cvect = CountVectorizer(ngram_range=(1, 3), min_df=1, max_df=1.0, max_features=10)
    dtm = cvect.fit_transform(corpus)
    vocab = cvect.get_feature_names_out()
    df_dtm = pd.DataFrame(dtm.toarray(), columns=vocab)
    df_dtm

    실행 결과

     

    문의입니다

    승강장

    승강장 문의입니다

    지하철

    코로나

    코로나 거리두기와

    코로나 거리두기와 코로나

    코로나 상생지원금

    코로나 상생지원금 문의입니다

    택시

    0

    1

    0

    0

    0

    2

    1

    1

    1

    1

    0

    1

    1

    0

    0

    2

    0

    0

    0

    0

    0

    0

    2

    1

    1

    1

    1

    0

    0

    0

    0

    0

    0

    3

    1

    1

    1

    0

    0

    0

    0

    0

    0

    1

     

    max_features의 기본값은 None이다. 출력된 표는 max_features를 10으로 했을 때의 출력 결과다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.