더북(TheBook)

편향

모든 머신러닝 모델은 특정한 가정(assumption)들에 기반을 두고 훈련합니다. 일반적으로 이 가정들은 현실 세계의 일부 현상을 간단하게 근사한 것입니다. 이를 이용하면 특성들이 이루는 관계를 단순화할 수 있기 때문에 모델 학습이 한결 쉬워집니다. 가정을 많이 사용할수록 편향도 커집니다. 또 모델 훈련에 사용하는 가정이 단순할수록 편향이 커지고, 현실을 반영하기 위해서 사실적인 가정을 쓰면 편향이 작아집니다.

주의 ≡

선형 회귀 모델은 특성의 비선형성을 무시하고 선형 변수로 근사하여 취급합니다. 따라서 선형 회귀 모델은 근본적으로 높은 편향에 노출되어 있습니다.

 

분산

모델 훈련에 사용하는 데이터셋이 달라졌을 때 모델이 타깃 변수를 얼마나 정확하게 추정할 수 있을지 정량화한 것이 분산입니다. 이는 모델이 적절한 일반화(generalization) 성능을 갖추었는지 나타냅니다.

특정한 시나리오나 상황에만 작동하도록 과적합된 모델은 분산이 큽니다. 반면, 다양한 상황에 적용할 수 있는 모델의 분산은 작습니다.

주의 ≡

머신러닝의 목표는 편향과 분산이 모두 작은 모델을 훈련하는 것입니다. 이 목표를 달성하는 것은 쉽지 않기 때문에 데이터 과학자들이 잠을 설치곤 합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.