모델 생성 및 평가

    중선형 회귀에서 lm( )에 지정하는 포뮬러는 독립 변수가 여러 개므로, 단순 선형 회귀에 비해 복잡한 형태다. 여러 독립 변수가 주어지면 이들을 +로 연결해 나열하여 중선형 회귀 모델을 만들 수 있다. 다음 코드는 아이리스 데이터의 Sepal.Length를 Sepal.Width, Petal.Length, Petal.Width를 사용해 예측하는 모델을 만든다.

    > (m <- lm(Sepal.Length ~ Sepal.Width + Petal.Length + Petal.Width, data=iris))
    
    Call:
    lm(formula = Sepal.Length ~ Sepal.Width + Petal.Length + Petal.Width,
        data = iris)
    
    Coefficients:
     (Intercept) Sepal.Width Petal.Length Petal.Width
          1.8560      0.6508       0.7091     -0.5565
    

    모델의 세부 내용은 단순 선형 회귀와 마찬가지로 summary( )로 볼 수 있다.

    > summary(m)
    Call:
    lm(formula = Sepal.Length ~ Sepal.Width + Petal.Length + Petal.Width,
        data = iris)
    
    Residuals:
    Min 1Q Median 3Q Max
    -0.82816 -0.21989 0.01875 0.19709 0.84570
    
    Coefficients:
                 Estimate Std. Error t value Pr(>|t|)
    (Intercept)   1.85600    0.25078   7.401 9.85e-12 ***
    Sepal.Width   0.65084    0.06665   9.765  < 2e-16 ***
    Petal.Length  0.70913    0.05672  12.502  < 2e-16 ***
    Petal.Width  -0.55648    0.12755  -4.363 2.41e-05 ***
    ---
    Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    
    Residual standard error: 0.3145 on 146 degrees of freedom
    Multiple R-squared: 0.8586,     Adjusted R-squared: 0.8557
    F-statistic: 295.5 on 3 and 146 DF,  p-value: < 2.2e-16
    

    모델의 계수를 읽는 방법이나 summary( )의 결과를 읽는 방법은 앞서 살펴본 단순 선형 회귀와 동일하다. 위 결과에서는 Sepal.Width, Petal.Lnegth, Petal.Width의 p 값이 모두 0.05보다 작아 모두 중요한 설명 변수다.

    F 통계량F-statistic은 단순 선형 회귀와 가설에 차이가 있는데, 단순 선형 회귀의 귀무가설은 β0 + β1 × X + ε에서 ‘H0: β1 = 0’인 반면, 중선형 회귀에서의 귀무가설은 ‘H0: 모든 계수가 0이다(즉, β0 = β1 = … = βp = 0)’이다. 따라서 p-value < 0.05면 하나 이상의 설명 변수의 계수가 0이 아니다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.