더북(TheBook)

4 min_df와 max_df: 빈도수 설정

 

문서에서 토큰이 나타난 횟수를 기준으로 단어장을 구성할 수도 있다. 이 경우 min_df, max_df를 사용한다. 토큰의 빈도가 min_df로 지정한 값보다 작거나 max_df로 지정한 값을 초과한 경우에는 무시한다. 또한, 정수인 경우 횟수, 부동소수점인 경우 비율을 의미한다.

 

표 4-2 | min_df와 max_df 비교

min_df

max_df

정수(int)

빈도수로 해당 빈도 이상인 단어만 사용

예) 2라면 한 번만 등장하는 단어는 제외

빈도수로 해당 빈도 이하인 단어만 사용

예) 100이라면 101번 이상 등장하는 단어는 제외

실수(float)

해당 비율보다 작은 비율로 등장하는 단어는 제외

예) 0.1이라면 10% 이상 등장하는 단어를 사용

해당 비율보다 큰 비율로 등장하는 단어는 제외

예) 0.9라면 90%까지 등장하는 단어만 사용

효과

오타, 희귀 단어 제거 효과

너무 자주 등장하지만 큰 의미가 없는 불용어 제거 효과

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.