더북(TheBook)

7. 분류모형의 평가

  • 혼동행렬(confusion matrix)을 통해 평가한다.

     

    실제 Y

    실제 Y

    예측 Y

    True positive(TP)

    False positive(FP)

    예측 Y

    False Negative(FN)

    True Negative(TN)

  • 정분류율은 전체 예측 결과 중 맞게 분류한 비율이다.
  • 오분류율은 전체 예측 결과 중 잘못 분류한 비율이다.
  • 이외에도 민감도, 특이도 등의 지표가 있다.

8. 로지스틱 회귀 분석 실습

  • sklearn 모듈의 linear_model이나 statmodels.api를 사용하거나, scipy의 모듈에서 함수를 제공한다.
  • sklearn의 경우 다음과 같이 실행한다.
    logit = linear_model.LogisticRegression()
    logit.fit(X_train, Y_train)
  • statmodels를 사용할 경우 Logit 함수를 사용하며 결과에 p값을 해석할 수 있다. 다음과 같이 실행한다.
    est = sm.Logit(Y_train, X)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.