7. 분류모형의 평가

    • 혼동행렬(confusion matrix)을 통해 평가한다.

       

      실제 Y

      실제 Y

      예측 Y

      True positive(TP)

      False positive(FP)

      예측 Y

      False Negative(FN)

      True Negative(TN)

    • 정분류율은 전체 예측 결과 중 맞게 분류한 비율이다.
    • 오분류율은 전체 예측 결과 중 잘못 분류한 비율이다.
    • 이외에도 민감도, 특이도 등의 지표가 있다.

    8. 로지스틱 회귀 분석 실습

    • sklearn 모듈의 linear_model이나 statmodels.api를 사용하거나, scipy의 모듈에서 함수를 제공한다.
    • sklearn의 경우 다음과 같이 실행한다.
      logit = linear_model.LogisticRegression()
      logit.fit(X_train, Y_train)
    • statmodels를 사용할 경우 Logit 함수를 사용하며 결과에 p값을 해석할 수 있다. 다음과 같이 실행한다.
      est = sm.Logit(Y_train, X)
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.