더북(TheBook)

01 | 선형 회귀의 기본 가정

선형 회귀Linear Regression는 i번째 관측값을 뜻하는 변수들이 (Xi1, Xi2, …, Xip, Yi) 형태로 주어졌을 때 종속 변수 Yi와 p개의 독립 변수 Xi1, Xi2, …, Xip를 다음과 같은 선형 식으로 표현한다.

Yi = β0 + β1Xi1 + β2Xi2 + ... + βpXip + εi  (식 8-1)

식에서 β0, β1, β2, …, βp는 회귀 모델의 계수며, εi는 오차(error)다. 이러한 선형 모델이 유용한 경우는 자동차 제동 거리와 브레이크를 밟기 전의 주행 속도 간의 관계, 아버지의 키와 아들의 키의 관계 등을 들 수 있다.

식 8-1로 표현되는 선형 회귀는 일반적으로 다음과 같은 내용을 가정한다.[1], [2]

종속 변수와 독립 변수들 간에 식 8-1과 같은 선형성이 성립한다.

독립 변수 Xij는 정확히 측정된 값으로 확률적으로 변하는 값이 아닌 고정된 값이다.

오차 εi는 평균이 0, 분산은 σ2인 정규 분포를 따르며 모든 i에 대해 평균과 분산이 일정하다. 또, 서로 다른 i, j에대해 εi, εj는 독립이다.

독립 변수 간에는 다중 공선성(multicollinarity)이 적어야 한다. 다중 공선성은 회귀 모델에서 변수 간의 상관관계가 커서 한 변수를 다른 변수들의 선형 조합으로 손쉽게 예측할 수 있는 경우를 뜻한다. 다중 공선성이 존재하면 계수 β0, β1, β2, …, βp의 추정이 어려워진다. 예를 들어, Xi1 = aXi2 + bXi3이 성립한다면 선형 회귀 식에서 Xi1 변수의 사용이 무의미해지기 때문이다.

더 많은 선형 회귀에 대한 가정은 위키피디아의 선형 회귀 페이지[3]에서 선형 회귀의 가정에 대한 부분을 참고하기 바란다.

<Note> 선형성에 대한 가정

Yi = β0 + β1Xi2 + εi와 같은 형태는 Xi2항 때문에 비선형이라고 생각하는 경우가 종종 있다. 그러나 선형 회귀에서 Xi1, Xi2, ..., Xip는 고정된 값으로 가정한다. 따라서 Xij에 상관없이 선형 회귀에서의 ‘선형성’은 파라미터 β0, β1, β2, ..., βp의 선형 조합을 의미한다.

따라서 다음 둘은 선형 회귀에 해당한다.

Yi = β0 + β1Xi2 + εi

Yi = β0 + β1X1 + β2Xi12 + β3Xi2Xi3 + β4Xi42 + β5Xi5 + εi

그러나 다음과 같이 계수 β0, β1, β2, ..., βp에 대해 비선형적인 모델은 선형 회귀에 해당하지 않는다.

Yi = β0 + β0β1Xi1 + β1Xi2 + εi

Yi = β0 + β02Xi + εi

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.