4 min_df와 max_df: 빈도수 설정

     

    문서에서 토큰이 나타난 횟수를 기준으로 단어장을 구성할 수도 있다. 이 경우 min_df, max_df를 사용한다. 토큰의 빈도가 min_df로 지정한 값보다 작거나 max_df로 지정한 값을 초과한 경우에는 무시한다. 또한, 정수인 경우 횟수, 부동소수점인 경우 비율을 의미한다.

     

    표 4-2 | min_df와 max_df 비교

    min_df

    max_df

    정수(int)

    빈도수로 해당 빈도 이상인 단어만 사용

    예) 2라면 한 번만 등장하는 단어는 제외

    빈도수로 해당 빈도 이하인 단어만 사용

    예) 100이라면 101번 이상 등장하는 단어는 제외

    실수(float)

    해당 비율보다 작은 비율로 등장하는 단어는 제외

    예) 0.1이라면 10% 이상 등장하는 단어를 사용

    해당 비율보다 큰 비율로 등장하는 단어는 제외

    예) 0.9라면 90%까지 등장하는 단어만 사용

    효과

    오타, 희귀 단어 제거 효과

    너무 자주 등장하지만 큰 의미가 없는 불용어 제거 효과

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.