모델 평가

    여기서는 선형 회귀 모델을 평가하는 다양한 기준을 살펴본다. 이러한 기준에는 결정 계수, 조정 결정 계수, 설명 변수 평가, F 통계량 등이 있다.

    선형 회귀 모델을 살펴보는 주요 함수는 summary( )다. summary( )는 일반 함수로, 주어진 인자에 대한 요약 정보를 보여준다. ‘4.5.1 데이터를 그룹으로 묶은 후 함수 호출하기’ 절에 보인 것처럼 데이터 프레임을 인자로 주면 데이터 프레임에 대한 요약 정보를 알려주며 기계 학습 모델이나 통계 모델을 인자로 주면 각 모델의 요약 정보를 알려준다.

    다음은 차량의 주행 속도와 제동 거리 간의 선형 회귀 모델에 대한 요약 정보를 살펴본 예다.

    > summary(m)
    
    Call:
    lm(formula = dist ~ speed, data = cars)
    
    Residuals:
        Min      1Q  Median     3Q     Max
    -29.069  -9.525  -2.272  9.215  43.201
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)
    (Intercept) -17.5791     6.7584  -2.601   0.0123 *
    speed         3.9324     0.4155   9.464 1.49e-12 ***
    ---
    Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    
    Residual standard error: 15.38 on 48 degrees of freedom
    Multiple R-squared: 0.6511,     Adjusted R-squared: 0.6438
    F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-12
    

    위 실행 결과를 한 부분씩 나누어 살펴보자. summary( ) 함수의 가장 처음에는 어떤 포뮬러를 사용해 선형 회귀를 수행했는지 알려준다. 해당 부분은 다음과 같다.

    Call:
    lm(formula = dist ~ speed, data = cars)
    

    Residuals 부분에서는 실제 데이터에서 관측된 잔차를 보여준다.

    Residuals:
        Min      1Q  Median     3Q     Max
    -29.069  -9.525  -2.272  9.215  43.201
    

    Coefficients에서는 모델의 계수와 이 계수들의 통계적 유의성을 알려준다.

    Coefficients:
                Estimate Std. Error t value Pr(>|t|)
    (Intercept) -17.5791     6.7584  -2.601   0.0123 *
    speed         3.9324     0.4155   9.464 1.49e-12 ***
    ---
    Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    

    마지막으로 결정 계수R-squared와 수정 결정 계수Adjusted R-squred는 모델이 데이터의 분산을 얼마나 설명하는지를 알려주며, F 통계량F-statistics은 모델이 통계적으로 얼마나 의미가 있는지를 알려준다.

    Residual standard error: 15.38 on 48 degrees of freedom
    Multiple R-squared: 0.6511,     Adjusted R-squared: 0.6438
    F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-12
    
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.