1 선형 회귀의 정의
“학생들의 중간고사 성적이 다 다르다.”
네, 다르겠죠.
그런데 위 문장이 나타낼 수 있는 정보는 너무 제한적입니다. 학급의 학생마다 제각각 성적이 다르다는 당연한 사실 외에는 알 수 있는 것이 없습니다. 이번에는 다음 문장을 보겠습니다.
“학생들의 중간고사 성적이 [ ]에 따라 다 다르다.”
이 문장은 정보가 담길 여지를 열어 놓고 있습니다. [ ] 부분에 시험 성적을 좌우할 만한 여러 가지 것이 들어간다면 좀 더 많은 사실을 전달할 수 있습니다. 예를 들어 공부한 시간, 시험 당일의 컨디션, 사교육비 지출액 등이 들어갈 수 있겠지요. 무엇이 들어가든지 해당 성적의 이유를 나름대로 타당하게 설명할 수 있습니다. 따라서 앞의 문장보다는 이 문장이 중간고사 성적의 차이와 이유를 나타낼 때 더욱 효과적입니다.
여기서 [ ]에 들어갈 내용을 ‘정보’라고 합니다. 머신 러닝과 딥러닝은 이 정보가 필요합니다. 정보를 정확히 준비해 놓기만 하면 성적을 예측하는 방정식을 만들 수도 있습니다.
이 단순한 정의를 이번에는 좀 더 수학적인 언어로 표현해 보겠습니다. 성적을 변하게 하는 ‘정보’ 요소를 x라고 하고, 이 x 값에 따라 변하는 ‘성적’을 y라고 합시다. 이를 정의하면 ‘x 값이 변함에 따라 y 값도 변한다’가 됩니다. 이 정의 안에서 독립적으로 변할 수 있는 값 x를 독립 변수라고 합니다. 또한, 이 독립 변수에 따라 종속적으로 변하는 y를 종속 변수라고 합니다. 선형 회귀란 독립 변수 x를 사용해 종속 변수 y의 움직임을 예측하고 설명하는 작업을 의미합니다.
독립 변수가 x 하나뿐이어서 이것만으로 정확히 설명할 수 없을 때는 x1, x2, x3 등 x 값을 여러 개 준비해 놓을 수도 있습니다. 하나의 x 값만으로도 y 값을 설명할 수 있다면 단순 선형 회귀(simple linear regression)라고 합니다. 또한, x 값이 여러 개 필요하다면 다중 선형 회귀(multiple linear regression)라고 합니다.