7. 분류모형의 평가
- 혼동행렬(confusion matrix)을 통해 평가한다.
실제 Y
실제 Y
예측 Y
True positive(TP)
False positive(FP)
예측 Y
False Negative(FN)
True Negative(TN)
- 정분류율은 전체 예측 결과 중 맞게 분류한 비율이다.
- 오분류율은 전체 예측 결과 중 잘못 분류한 비율이다.
- 이외에도 민감도, 특이도 등의 지표가 있다.
8. 로지스틱 회귀 분석 실습
- sklearn 모듈의 linear_model이나 statmodels.api를 사용하거나, scipy의 모듈에서 함수를 제공한다.
-
sklearn의 경우 다음과 같이 실행한다.
logit = linear_model.LogisticRegression() logit.fit(X_train, Y_train)
-
statmodels를 사용할 경우 Logit 함수를 사용하며 결과에 p값을 해석할 수 있다. 다음과 같이 실행한다.
est = sm.Logit(Y_train, X)