더북(TheBook)

전체 1,533건의 데이터 중 1,227건이 예측에 성공했으므로 약 80점이다. 백분위로 점수가 나오게 해 보자. 예측에 성공한 값(pred_diff[0])을 전체 데이터(y_pred.shape[0])로 나누고 100을 곱한다.

acc = (pred_diff[0] / y_pred.shape[0]) * 100 
print(f'정확도 {acc:.6f}')

실행 결과

정확도 80.039139

 

점수는 80.04점으로 평가 때보다 약간 점수가 올랐다. 평가 데이터에 비해 예측 데이터의 성능이 좋은 것은 학습이 잘 되었다는 뜻이기도 하다. 이때 점수는 랜덤값을 어떻게 설정했냐에 따라 달라질 수 있고, 라이브러리의 버전 차이로 기본값 설정이 달라서 다른 값이 나올 수도 있다. 따라서 정확도가 예제와 다르다고 해서 당황하지 않아도 된다.

지금까지 국민청원 데이터로 이진 분류를 해 봤다. 국민청원 데이터의 범주 구분은 다른 데이터를 대상으로 이진 분류를 할 때도 응용할 수 있다. 성능 개선을 위한 방법을 스스로 모색해 본다면 (예를 들어 국민청원 데이터 중 기타로 분류됐으나 분류기가 다르게 예측한 청원을 확인해 보기 등) 좋은 학습이 될 것이다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.