머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 5.6.5 편향- 분산 상충 관계의 예시

요약 테이블

서로 다른 우선순위와 데이터에 대한 개념화로 탄생한 세 가지 학습 방법이 공통의 시작점을 가지고 있다는 것이 의외로 느껴질 수도 있습니다. 간단한 시나리오에서 이 모델들의 예측 값은 평균입니다. 모든 사례를 이용하는 최근접 이웃 모델의 결과는 무엇일까요? 평균을 예측합니다. w₀ 가중치만 이용하는 선형 회귀는 어떤가요? w₀ 은 평균으로 수렴합니다. 간단한 형태의 나이브 베이즈는 출력 타깃의 평균이나 분류 문제의 경우 가장 빈도가 높은 값과 같습니다. 하지만 이 방법들은 서로 다른 방향으로 확장됩니다. 표 5-3은 이 모델들이 가진 편향 - 분산과 과소적합과 과대적합의 상충 관계가 어떻게 다른지 보여 줍니다.

▼ 표 5-3 편향과 분산의 상충 관계

시나리오	사례	장점	단점	위험
고 편향 & 저 분산	다수 최근접 이웃	노이즈에 강함	패턴을 놓칠 수 있음	과소적합
	저차수 다항식	일반화되도록 강제됨
	작거나 0인 선형 회귀 계수
	많은 독립 가정
저 편향 & 고 분산	소수 최근접 이웃	복잡한 패턴을 묘사함	노이즈를 학습할 수 있음	과대적합
	고차수 다항식		학습 데이터를 외울 수 있음
	큰 선형 회귀 계수
	적은 독립 가정

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.