더북(TheBook)

행정의 빈도와 건강, 여성가족의 빈도수 차이가 심하다. 분류별 빈도수 값의 불균형이 심할 경우 전체 데이터로 예측하면 성능이 떨어질 수 있으므로, 언더샘플링이나 오버샘플링으로 정답값을 균형 있게 만들어 주기도 한다. 여기에서는 일부 분류의 상위 데이터 세 개만 사용해 분석하기로 한다. 이렇게 일부 분류만 사용하더라도 정답에 불균형이 있기 때문에 빈도가 많은 분류의 예측 정확도가 더 높게 나올 것이다.

isin()으로 행정, 경제, 복지 데이터만 가지고 와서 다시 df로 감싸 판다스 데이터 프레임 형태로 만들어 준다.

df = df[df["분류"].isin(["행정", "경제", "복지"])]

데이터를 새로 만든 뒤에는 앞에서 데이터를 검토했을 때와 마찬가지로 shape로 데이터 개수를 확인하고, head()로 데이터를 미리 확인할 것을 추천한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.