더북(TheBook)

2 이진 분류 대상 정하기

 

데이터 분석 도구와 데이터는 앞에서 임포트한 것과 같다. 앞의 절과 같은 라이브러리와 데이터를 사용하므로 불러오는 과정은 생략한다. 여기서는 파이썬의 머신러닝 라이브러리인 사이킷런을 사용해서 응답 여부를 0과 1로 예측할 것이다.

우선 다음 코드를 실행해 전체 데이터 중 투표가 500건을 초과하는 데이터를 가져온 뒤, 그 중 20만 건 이상인 데이터는 제거한다. 이렇게 기준을 정한 이유는 500건 이하인 데이터는 개수가 많지만 일정한 경향을 발견하기 어렵고, 20만 건 이상인 데이터는 매우 적지만 이상치에 가까운 큰 수이기 때문에 평균이 왜곡될 수 있기 때문이다.

petition_remove_outlier = petitions.loc[(petitions['votes'] > 500) & 
                                        (petitions['votes'] < 200000)]
petition_remove_outlier.shape

실행 결과

(5109, 8)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.