더북(TheBook)

결과를 보면 뉴스 기사의 토픽별로 세계에 해당하는 문서가 가장 많고, IT과학에 해당하는 문서가 가장 적다. 이처럼 데이터 불균형이 있을 때는 어떻게 할까? 무작위 추출을 통해 데이터가 가장 적은 ‘IT과학’의 개수에 맞춰 다른 토픽의 데이터를 삭제할 수도 있고(Under-sampling), 아니면 ‘IT과학’의 개수를 늘려서 가장 개수가 많은 ‘세계’에 맞출 수도 있다(Over-sampling). 이외에 이상치 탐지를 통해 경계가 모호한 데이터를 미리 삭제할 수도 있다. 다만, 이렇게 데이터를 삭제하는 경우 중요 정보를 잃을 수도 있으므로 각 방법의 장단점을 고려해 가장 적합한 방법을 선택해야 한다. 지금은 데이터 불균형을 처리해서 얻는 득보다 실이 더 클 수 있으므로 달리 방법을 선택하지 않고 특성만 파악했다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.