더북(TheBook)

7.6 선형모형의 확장2: 로지스틱 회귀모형 소개

지금까지는 Y값이 수치인 회귀모형을 살펴보았다. 하지만 경우에 따라서는 종속 변수가 수치형이 아닌 범주형 자료일 수도 있다. 이런 Y에 대해서는 앞에서 살펴본 일반적인 선형 회귀 분석을 사용하면 안 되고, 만약 회귀 분석하여 결괏값이 나왔다 하더라도 잘못된 값이 된다. 즉, Y값이 범주인 것을 고려할 수 있는, 다른 종류의 선형모형을 사용할 필요가 있다.

종속 변수가 범주형 자료인 경우를 고려해보자. 이때 로지스틱 회귀모형(logistic regression)을 사용할 수 있는데 이때의 Y는 이산적인 값을 갖기에 이산형 변수(discrete variable)에 대해 직선식으로 모델링하는 것으로 이해할 수 있다. 로지스틱 회귀모형은 Y가 범주형이거나 이항(binary)이고, X는 범주형 또는 수치형인 경우에 사용된다. 이러한 Y의 예로는 YES/NO, 1/0, Acceptable/Not acceptable, 발생/미발생 등이 있다. 참고로 경우에 따라서는 범주에 순서가 있으면서 범주가 두 개 이상일 수도 있다. 이 경우에는 다시 다른 종류의 로지스틱 회귀모형을 고려해야 한다.

일반적인 로지스틱 회귀모형은 다음과 같이 나타낼 수 있다.

이때 종속 변수의 역할을 하는 logit(p)는 다음과 같으며, 이것은 odds라는 비율에 로그 함수를 적용한 값이다. 이때 odds란 어떤 사건이 발생할 확률(p)을 발생하지 않을 확률(1-p)로 나눠준 값을 의미한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.