4 min_df와 max_df: 빈도수 설정
문서에서 토큰이 나타난 횟수를 기준으로 단어장을 구성할 수도 있다. 이 경우 min_df, max_df를 사용한다. 토큰의 빈도가 min_df로 지정한 값보다 작거나 max_df로 지정한 값을 초과한 경우에는 무시한다. 또한, 정수인 경우 횟수, 부동소수점인 경우 비율을 의미한다.
표 4-2 | min_df와 max_df 비교
min_df |
max_df |
|
정수(int) |
빈도수로 해당 빈도 이상인 단어만 사용 예) 2라면 한 번만 등장하는 단어는 제외 |
빈도수로 해당 빈도 이하인 단어만 사용 예) 100이라면 101번 이상 등장하는 단어는 제외 |
실수(float) |
해당 비율보다 작은 비율로 등장하는 단어는 제외 예) 0.1이라면 10% 이상 등장하는 단어를 사용 |
해당 비율보다 큰 비율로 등장하는 단어는 제외 예) 0.9라면 90%까지 등장하는 단어만 사용 |
효과 |
오타, 희귀 단어 제거 효과 |
너무 자주 등장하지만 큰 의미가 없는 불용어 제거 효과 |