다중 회귀 이해하기
우리가 도전할 현실 세계의 문제들은 독립 변수가 두 개 이상인 경우가 대부분입니다. 다중 회귀(multiple regression)는 단순한 선형 회귀의 확장판입니다. 선형 회귀에 비해 다중 회귀는 늘어난 예측 변수에 따라 베타 계수를 더 많이 가지고 있습니다. 모델을 훈련하는 목표는 선형 회귀식의 오차를 최소화하는 베타 계수를 찾는 것입니다. 종속 변수와 다수의 독립 변수(특성) 간 관계를 수학적으로 표현해 봅시다.
단순 선형 회귀와 마찬가지로, 종속 변수 y는 사용하는 특성 x와 β 계수를 곱한 결과의 합과 인터셉트 항을 더한 것으로 정의합니다. i는 특성의 순번을 뜻합니다.
y = α + β1x1 + β2x2 +...+ βixi + ε
여기서 ε은 오차를 의미합니다. 예측값에는 언제나 오차가 있기 마련입니다. β 계수는 각 특성이 y 값에 미치는 독립적인 영향력을 의미합니다. xi의 단위가 1 증가할 때마다 y 값은 βi만큼 증가합니다. 인터셉트 항(α)은 모든 독립 변수가 0일 때 y의 기댓값을 의미합니다.
이 공식에 있는 모든 변수는 벡터로 표현할 수 있습니다. 타깃과 예측 변수, 회귀 계수 β와 오차 ε도 모두 벡터입니다.