머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 5.6.5 편향- 분산 상충 관계의 예시

선형 회귀의 편향- 분산

선형 회귀에는 어떤 비교 분석 방법을 사용할 수 있을까요? 두 가지 방법이 있습니다. 이 절에서는 조금 단순화해서 설명하겠습니다. 다음 두 가지 방법으로 기본 선형 회귀 모델을 만들겠습니다.

• 학습에 포함된 특성을 규제

• 기존 특성과 간단한 관계를 가진 새로운 유사 속성을 추가

두 개의 선형 회귀 모델을 먼저 알아보겠습니다. 첫 번째 모델인 ConstantLinear는 단순한 수평선입니다. 두 번째 모델인 PlainLinear는 기울기를 가진 직선입니다. 4.3.2절에서 공부했던 가중치 관점에서 보면, 첫 번째 모델은 w₀을 제외한 모든 가중치를 0으로 둡니다. 어떤 입력 값이든 동일한 값을 출력하지요. 마치 “나는 변화가 싫어. 데이터로 나를 헷갈리게 하지 마.”라고 말하는 듯합니다. 두 번째 모델은 “모두를 초대해서 파티를 열자!”라고 외칩니다. 이 두 가지 극단 사이에 모델을 만들어 보면 어떨까요? 사람을 가려서 파티에 초대하는 것입니다. 즉, 일부 가중치만 0으로 두는 것이지요. 이렇게 되면 총 네 가지의 선형 회귀 모델이 만들어집니다.

• 상수 선형 회귀: 특성을 전혀 사용하지 않습니다. 0이 아닌 모든 i에 대해 w_i = 0

• 소수: 소수의 가중치만 사용합니다. 대부분의 w_i = 0

• 다수: 다수의 가중치를 사용합니다. 소수의 w_i = 0

• 기본 선형 회귀: 모든 특성을 사용합니다. 모든 w_i != 0

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.