더북(TheBook)

선형 회귀

이번에는 선형 회귀 분석을 살펴보겠습니다.

▼ 표 3-8 선형 회귀를 사용하는 이유와 적용 환경

왜 사용할까?

주어진 데이터에 대한 분류

언제 사용하면 좋을까?

로지스틱 회귀는 주어진 데이터에서 독립 변수(x)와 종속 변수(y)가 선형 관계를 가질 때 사용하면 유용합니다. 또한, 복잡한 연산 과정이 없기 때문에 컴퓨팅 성능이 낮은 환경(CPU/GPU 혹은 메모리 성능이 좋지 않을 때)에서 사용하면 좋습니다.

선형 회귀(linear regression)는 독립 변수 x를 사용하여 종속 변수 y의 움직임을 예측하고 설명하는 데 사용됩니다. 독립 변수 x는 하나일 수도 있고, x1, x2, x3처럼 여러 개일 수도 있습니다. 하나의 x 값으로 y 값을 설명할 수 있다면 단순 선형 회귀(simple linear regression)라고 하며, x 값이 여러 개라면 다중 선형 회귀(multiple linear regression)라고 합니다.

선형 회귀는 종속 변수와 독립 변수 사이의 관계를 설정하는 데 사용됩니다. 즉, 독립 변수가 변경되었을 때 종속 변수를 추정하는 데 유용합니다. 예를 들어 더운 여름철 아이스크림이 시간당 100개가 팔린다고 할 때 y=100x라는 함수를 가정할 수 있습니다(실제로는 더 복잡한 수식이겠지만, 설명을 위해 간단히 y=100x라고 하겠습니다). 이 함수에 따라 아이스크림 가격이 1000원이라고 한다면 시간당 10만 원의 매출이 될 것입니다. 이와 같이 단순 회귀를 사용하면 변수 값을 추정할 수 있습니다.

반면 로지스틱 회귀는 사건의 확률(0 또는 1)을 확인하는 데 사용됩니다. 예를 들어 고객이 A 제품을 구매할지 여부를 확인하고 싶을 때 로지스틱 회귀 분석을 이용합니다(종속 변수는 이진 변수(1=예, 0=아니요)로 표현되기 때문).

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.