7.4 로지스틱 회귀
이번에는 로지스틱 회귀(logistic regression)를 사용한 간단한 매매 전략을 만들어보자.
로지스틱 회귀는 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도학습 알고리즘이다. 수신한 메일이 스팸메일일 확률이 50% 이상이면 스팸메일함으로 보내고, 그렇지 않으면 받은 편지함으로 보내는 것이 대표적인 예다.
로지스틱 회귀는 선형 회귀(linear regression)와 비슷하다. 선형 회귀를 통계가 아닌 머신 러닝 방식으로 다시 풀면, 독립변수에 가중치를 곱한 합계를 바탕으로 종속변수 값을 예측하는 것이다.
y = Wx + b
위 식과 같은 단순선형 회귀에서 x라는 독립변수에 W라는 가중치와 b라는 편차를 더해 예측값인 종속변수 y를 구하는 것이다. 종속변수가 여러 개인 다중선형 회귀에서는 다음과 같이 쓸 수 있다.
y = W1x1 + W2x2 + W3x3 + ⋯ + Wn-1xn-1 + Wnxn + b
회귀분석의 목적은 W와 b를 구하는 것이다. 로지스틱 함수는 입력 변수의 가중치 합을 계산한다는 점에서는 같지만, 비선형함수인 시그모이드(sigmoid)라는 함수를 통해 결과를 얻어낸다. 시그모이드 함수는 0~1 사이의 값을 갖는 지수함수의 역함수다.
▲ 그림 7-18 시그모이드 함수
시그모이드 함수 결괏값이 0.5 이상이면 결과를 1로, 그 이하이면 0 또는 음수 값으로 분류한다.