이렇게 해서 생겨난 선형 회귀 분석은 변수 사이의 관계를 잘 설명한다. 다음 예를 더 살펴보자. 어떤 학생 3명이 일주일에 각 3, 5, 7시간 공부했고 그들의 성적은 30, 50, 70점이라고 하자. 우리가 관심을 갖는 것은 학생들의 성적이고, 성적에 영향을 주는 것은 공부 시간일 것이다. 아마도 이 책을 읽는 독자는 크게 고민하지 않고도 “공부 시간에 10을 곱하면 성적이 나오네”라는 관계를 생각할 수도 있다. 즉, 오로지 학생 3명에게서 얻은 공부 시간과 성적의 관계는 “공부 시간 ×10 = 성적”이 된다. 이때 성적은 앞서 얘기한 Y이고, 공부 시간은 X가 된다. ×10은 공부 시간이 성적에 미치는 과거의 관계를 의미하며, 이 수식은 그 자체로 모형이 된다. 특히, 공부 시간이 1시간 늘어나는 경우 성적이 10점씩 오르는 이러한 관계는 다음처럼 직선식으로 표현할 수 있다. 앞장에서 본 바와 같이 이런 직선 관계를 선형(linear)이라 불렀다.
▲ 그림 7-3 직선식
그렇다면 왜 이러한 직선식을 굳이 찾아내야 할까? 앞에서 데이터를 설명할 때 “3시간 공부하면 30점, 5시간 공부하면 50점, 7시간 공부하면 70점이야”라고 해도 사실은 큰 문제가 없을 수 있다. 하지만 대상이 되는 학생이 100명이라고 하자. 데이터를 설명하는 데만 해도 수많은 시간이 걸릴테고 설명하는 사람, 듣는 사람 모두 무척이나 불편할 것이다. 우리는 이미 통계량을 통해서 주어진 데이터를 이해하는 데 요약 정보가 효과적이라는 것을 이미 살펴보았다. 그런 이유로, 평균이나 편차 등 데이터에 대한 요약 정보를 구하고 사용해왔다. 그렇다면 공부 시간과 성적의 관계에서도 요약 정보를 사용하면 좀 더 효율적으로 자료를 이해할 수 있을 것이다. 그리고 그 역할을 직선식이 하게 되는 셈이다.