더북(TheBook)

이전 코드에서 자주 보았던 사이킷런의 StratifiedKFold를 사용했습니다. 각 반복에서 sklearn.metrics 모듈의 roc_curve 함수를 사용하여 pipe_lr 파이프라인에 있는 LogisticRegression 모델의 ROC 값을 계산했습니다. 또 사이파이(SciPy)interp 함수를 사용하여 세 개의 폴드에 대한 ROC 곡선을 보간하여 평균을 구했습니다. 그다음 auc 함수를 사용하여 곡선 아래 면적을 계산합니다. 만들어진 ROC 곡선을 보면 폴드에 따라 어느 정도 분산이 있음을 알 수 있습니다. 평균 ROC AUC(0.76)는 완벽한 경우(1.0)와 랜덤 추측(0.5)19 사이에 있습니다.

▲ 그림 6-15 ROC 곡선

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.