사실, 우리는 이미 앞에서 공분산이나 상관계수로 두 변수의 관계를 살펴보았다. 이 두 요약 정보는 한 변수가 움직일 때 다른 변수가 어떻게 움직이는지에 대한 정보를 제공한다. 하지만 이 요약 정보는 두 변수의 관계를 나타내지만 모형화하지는 못한다. 즉, 변수 사이의 인과관계까지는 나타내지 못한다. 공부를 많이 해 성적이 좋은 건지 아니면 성적이 좋아서 공부를 많이 한 건지 모른다. 변수 간의 관계를 더 구체적으로 보려면 다음과 같이 데이터를 도표로 그려 살펴봐야 한다. 이때 변수 X가 독립 변수, 설명(predictor) 변수가 되고 변수 Y가 종속 변수, 반응(response) 변수가 된다. X가 Y에 영향을 미치는 관계를 설정한 것이다.
이러한 두 변수의 관계를 요약하여 나타내는 방법에는 어떤 것이 있을까? 두 변수의 관계를 하나의 선으로 나타낸다면 훌륭한 요약 정보가 될 것이다. 특히, 직선으로 두 변수의 관계를 나타낼 수 있다면 수식으로도 쉽게 표현할 수 있다. 그림 7-4에서는 두 변수의 관계를 직선으로 나타냈다.
▲ 그림 7-4 자료를 요약하는 직선
그리고 이 직선을 수식화하는 것은 직선식을 찾는 것과 같으며 Y 절편과 기울기가 필요하다. 직관적으로 이해하면 선형 회귀는 주어진 데이터에 Y 절편과 기울기로 나타낸 직선(straight line)을 적합(fitting)시키는 과정으로 볼 수 있다. 이때 Y 절편과 기울기가 미지수이며 이 값은 데이터를 통해 추정할 수 있다. 선형 회귀를 통해 얻어진 직선은 알려진 X값으로 Y값을 예측할 때 사용되며 다음과 같은 식을 사용한다.
y = b0 + b1x