더북(TheBook)

상호 작용

상호 작용Interaction은 독립 변수 간의 상호 작용이 종속 변수에 영향을 주는 경우를 말한다. 또, 이 영향을 주는 방법이 합이 아니라 곱의 형태일 때를 말한다.[11]

지금까지 계속 살펴본 자동차의 주행 속도와 제동 거리의 예를 생각해보자. 이 데이터는 (주행 속도, 제동 거리)의 순서쌍 데이터로 구성되어 있고, 단순 선형 회귀 모델은 dist = β0 + β1 × speed + ε 형태였다. 그러나 이 데이터에 자동차의 크기(소형, 대형의 두 가지 범주형 변수)가 추가된다면 자동차의 크기를 설명 변수에 추가해야 할 것이다.

자동차의 크기는 상호 작용을 어떻게 고려하는가에 따라 모델을 그림 8-7에 보인 세 가지 경우로 나누어 생각할 수 있다.[7]

그림 8-7 변수 간의 상호 작용과 그에 따른 선형 회귀 모델
그림 8-7 변수 간의 상호 작용과 그에 따른 선형 회귀 모델

그림 8-7의 세 가지 유형은 다음과 같이 설명할 수 있다.

(a) 차량의 크기를 고려할 필요가 없다고 가정한 모델로, 제동 거리는 주행 속도에만 비례한다.

(b) 차량의 크기는 상수항에만 영향을 미칠 뿐 주행 속도에 따른 제동 거리의 기울기에는 영향을 미치지 않는 경우다.

(c) 차량의 크기가 상수항과 주행 속도의 기울기 모두에 영향을 미치는 경우다.

이들 각각을 lm( )의 포뮬러로 표현하면 다음과 같다.

(a) dist ~ speed

(b) dist ~ speed + size

(c) dist ~ speed + size + speed:size 또는 dist ~ speed * size

(b)의 경우는 speed와 size가 모두 dist에 영향을 주지만 speed로 인한 영향과 size로 인한 영향이 합쳐져 dist가 되었다. 즉, dist = β0 + β1*speed + β2 * size + ε 형태다. 이 경우는 종속 변수에 영향을 주는 방법이 ‘합’의 형태므로 상호 작용이라고 부르지 않는다.

(c)의 경우가 이 절에서 설명할 상호 작용에 해당한다. 상호 작용은 두 변수 speed와 dist를 ‘:’으로 연결해 speed:dist로 표현한다. 그리고 개별 변수와 상호 작용을 모두 포뮬러에 표현하는 speed + dist + speed:dist는 speed * dist로 축약하여 표현할 수 있다.

3개 이상의 변수 A, B, C와 그 상호 작용은 어떻게 표현할까? 모든 상호 작용을 표현한다면 A + B + C + A:B + A:C + B:C + A:B:C를 지정하면 된다. 그리고 이는 A * B * C로 축약할 수 있다.

그러나 A, B, C 3개 변수가 있는데 세 변수가 동시에 상호 작용할 수는 없고 최대 2개까지 상호 작용한다면 A + B + C + A:B + A:C + B:C라고 적는다. 그리고 이를 축약해 표현하는 방법이 바로 (A + B + C)^2다. 마찬가지로 설명 변수 A, B, C, D가 있고 이들 중 최대 2개 변수가 상호 작용하며 개별 변수 역시 포뮬러에 표현한다면 (A + B + C + D)^2가 된다. 또, 최대 3개 변수가 상호 작용한다면 (A + B + C + D)^3으로 표현할 수 있다.

이런 까닭에 설명 변수 X의 제곱을 포뮬러에 사용하고 싶다면 I(X^2)처럼 I( )를 사용해야 한다. 그렇지 않으면 X^2가 설명 변수 X와 X:X로 해석되어버리기 때문이다. 마찬가지로 (X + Y)^2는 X + Y + X:Y를 뜻하지만 I((X+Y)^2)는 X와 Y의 합의 제곱을 뜻한다.

좀 더 다양한 포뮬러의 예는 참고자료 [8]을 참고하기 바란다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.