더북(TheBook)

모델 생성 및 평가

중선형 회귀에서 lm( )에 지정하는 포뮬러는 독립 변수가 여러 개므로, 단순 선형 회귀에 비해 복잡한 형태다. 여러 독립 변수가 주어지면 이들을 +로 연결해 나열하여 중선형 회귀 모델을 만들 수 있다. 다음 코드는 아이리스 데이터의 Sepal.Length를 Sepal.Width, Petal.Length, Petal.Width를 사용해 예측하는 모델을 만든다.

> (m <- lm(Sepal.Length ~ Sepal.Width + Petal.Length + Petal.Width, data=iris))

Call:
lm(formula = Sepal.Length ~ Sepal.Width + Petal.Length + Petal.Width,
    data = iris)

Coefficients:
 (Intercept) Sepal.Width Petal.Length Petal.Width
      1.8560      0.6508       0.7091     -0.5565

모델의 세부 내용은 단순 선형 회귀와 마찬가지로 summary( )로 볼 수 있다.

> summary(m)
Call:
lm(formula = Sepal.Length ~ Sepal.Width + Petal.Length + Petal.Width,
    data = iris)

Residuals:
Min 1Q Median 3Q Max
-0.82816 -0.21989 0.01875 0.19709 0.84570

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept)   1.85600    0.25078   7.401 9.85e-12 ***
Sepal.Width   0.65084    0.06665   9.765  < 2e-16 ***
Petal.Length  0.70913    0.05672  12.502  < 2e-16 ***
Petal.Width  -0.55648    0.12755  -4.363 2.41e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3145 on 146 degrees of freedom
Multiple R-squared: 0.8586,     Adjusted R-squared: 0.8557
F-statistic: 295.5 on 3 and 146 DF,  p-value: < 2.2e-16

모델의 계수를 읽는 방법이나 summary( )의 결과를 읽는 방법은 앞서 살펴본 단순 선형 회귀와 동일하다. 위 결과에서는 Sepal.Width, Petal.Lnegth, Petal.Width의 p 값이 모두 0.05보다 작아 모두 중요한 설명 변수다.

F 통계량F-statistic은 단순 선형 회귀와 가설에 차이가 있는데, 단순 선형 회귀의 귀무가설은 β0 + β1 × X + ε에서 ‘H0: β1 = 0’인 반면, 중선형 회귀에서의 귀무가설은 ‘H0: 모든 계수가 0이다(즉, β0 = β1 = … = βp = 0)’이다. 따라서 p-value < 0.05면 하나 이상의 설명 변수의 계수가 0이 아니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.