더북(TheBook)

5.6.2 모델의 분산

오류 원인 중 일부는 어느 정도 조정 가능합니다. 선형 회귀 같은 모델을 하나 선택하고 훈련을 수행하면, 우리는 그 모델의 파라미터를 설정하게 됩니다. 공장 기계에 달린 손잡이를 조정하는 것이죠. 훈련 세트와 테스트 세트를 무작위로 선택하면 결과를 컨트롤하는 힘을 조금 잃게 됩니다. 훈련 데이터의 무작위성이 모델의 파라미터에 영향을 주는 것입니다. 동전을 던져 데이터를 준비하면 훈련 데이터가 매번 조금씩 달라지게 됩니다. 그리고 훈련 데이터가 달라지면 모델도 달라지지요. 훈련 데이터를 무작위로 선택함에 따라 발생하는 모델 변동성을 모델의 분산이라고 합니다.

분산은 모델 복잡도에 따라 달라지기도 합니다. 1-NN 모델은 가장 가까운 훈련 사례를 참조하여 예측을 수행합니다. 1-NN을 사용하면 테스트 사례 값이 조금만 바뀌어도 참조하는 훈련 사례가 달라져 결과가 들쭉날쭉해집니다. 반대로 더 큰 수의 NN을 사용하면 복잡도가 증가하고 훈련 성능이 악화되지만, 여러 주변 이웃을 고려하기 때문에 분산이 감소합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.