머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 5.6.4 모두 다 함께

5.6.4 모두 다 함께

지금까지 살펴본 세 가지 요소는 예측을 할 때 발생하는 오류 원인입니다. 이들은 (1) 데이터에 내재된 변동성 (2) 학습 데이터로 모델을 만들 때 발생하는 변동성 그리고 (3) 모델의 편향입니다. 세 요소와 전반적인 오차 간 관계를 편향 - 분산 분해(bias-variance decomposition)라고 하며, 수학적으로는 다음과 같이 표현합니다.

오차 = 편향_모델 + 분산_{모델(훈련)} + 분산_데이터

이 수식에 있는 수많은 디테일은 일단 넘어가겠습니다. 너무 걱정하지 마세요. 수식으로 가득 찬 대학원 교과서도 이 수식의 디테일을 모두 짚고 넘어가지 않습니다. 몇 가지 사례를 살펴보기 전에 한 번 더 복습하겠습니다. 예측 오차는 데이터의 무작위성과 훈련 데이터로 만든 모델의 변동성, 그리고 모델이 표현할 수 있는 관계와 실제 관계의 차이에서 비롯됩니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.