더북(TheBook)

4. 선형 회귀 분석을 통한 예측

  • 추정한 모형에 예측하려는 X를 넣어서 Y를 예측한다.
  • 예를 들어 X 변수 하나가 포함된 추정 모형이 Y = 5 × X + 10이고, 예측하려는 X 10이면 예측값 Y = 5 × 10 + 10이어서 60으로 계산된다.
  • 예측한 Y와 실제 Y의 차이는 오차이다.
  • 예측한 값들이 갖는 오차 값의 제곱의 평균은 평균오차제곱(MSE, Mean Squared Error)이다.

5. 분류모형(classification)

  • 범주형 Y 변수에 대해 모형화하는 것이다.
  • Y가 갖는 범주를 예측할 수 있다.
  • Y 변수가 사고의 발생/미발생, Yes/No와 같은 이항 분포를 따르는 경우에 적용할 수 있다.

6. 로지스틱 회귀(logistic regression) 분석

  • 주어진 XY의 범주를 예측하는 분석이다.
  • X는 독립 변수, Y는 종속 변수라고 지칭한다.
  • 로지스틱 회귀 분석을 통해 XY의 발생에 미치는 관계를 추론할 수 있다.
  • 다음 식으로 표현한다.

  • 이때 logit(p)에서 p는 대상 사건이 발생할 확률이며 아래 식으로 표현한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.