머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 5.6.3 모델의 편향

5.6.3 모델의 편향

마지막 오류 원인은 우리가 가장 많이 컨트롤할 수 있는 영역입니다. 선택해야 하는 두 모델 중 한 모델이 다른 모델보다 입력과 출력 간 관계를 더 잘 표현할 수 있습니다. 관계를 잘 표현하지 못하는 모델 사례는 5.3.2절에서 알아보았습니다. 직선으로 포물선 궤적을 따라가는 데 애로 사항이 꽃피었죠.

이것을 이 절의 주제와 연결 지어 보겠습니다. 몇 단락 앞에서 설명했던 것처럼 먼저 내재된 무작위성, 노이즈를 제거하는 것으로 시작합니다. 주어진 입력 조건에 따른 최선의 추측만 고려하여 노이즈를 제거합니다. 교육 수준, 학위 프로그램, 학위 후 경력{대학, 경제학, 5년}으로 예측한 소득은 범위를 형성하지만, 여기에서는 최선의 값 하나만 선택해서 그 범위를 대표합니다. 이제 우리 질문은 “첫 번째 모델이 그 예측 값과 얼마나 잘 들어맞는가?”와 “두 번째 모델이 그 예측 값과 얼마나 잘 들어맞는가?”입니다. 그러고 나서 이 프로세스를 모든 입력({고등학교, 직업반, 10년}, {대학원, 심리학, 8년})에 대해 확장합니다. 마지막으로 모든 입력 특성에 대해 모델이 최선의 예측 값과 얼마나 잘 들어맞는지 확인해 보면 됩니다.

잠시 후에 이 아이디어들을 조금 더 구체화하겠습니다.

데이터에 내재된 무작위성을 무시했는데도 입력과 출력이 갖는 실제 관계를 잘 표현하지 못하는 모델을 편향이 높은 모델이라고 합니다. 편향이 높은 모델은 복잡한 패턴을 제대로 학습하지 못합니다. 편향이 낮은 모델은 복잡한 패턴을 잘 따라갈 수 있습니다. 레이스 트랙 사례에서 속력과 시간을 연결 지어 거리를 구하고자 할 때 덧셈은 작동하지 않습니다. 정답은 곱셈이기 때문이지요.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.