더북(TheBook)

오타, 희귀 단어 등은 문서에 매우 적은 빈도나 비율로 등장한다. min_df는 문서 빈도나 비율이 지정된 임곗값보다 낮은 단어를 제외한다. 예를 들어 min_df를 0.1 또는 0.2로 설정하면 10% 또는 20%보다 큰 비율로 나타나는 단어만 학습한다.

너무 자주 등장하는 단어도 있다. 특별한 의미를 갖기도 하지만 불용어일 수도 있다. max_df는 주어진 임곗값보다 빈도가 높은 단어를 무시한다. 예를 들어 코로나 관련 기사를 분석하면 문서의 90%에 ‘코로나’라는 단어가 등장할 수 있는데, 이 경우 max_df=0.89로 비율을 설정해 너무 빈번하게 등장하는 단어를 제외할 수 있다.

다음 코드를 보자. ngram_range=(1, 3), min_df=0.2, max_df=5로 단어 가방 모형을 만든 것이다. 이렇게 설정한 의미는 다음과 같다. 물론 지정하는 숫자는 사용하는 문서에 따라 조정하면 된다.

 

단어를 1~3개까지 묶어서 사용하고,

20% 이상 등장하는 단어만 사용하며,

5번까지 등장하는 단어로만 사전을 구성한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.