머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 5.6.1 데이터의 분산

5.6.1 데이터의 분산

모델이 타깃 클래스를 잘못 예측하거나 MSE가 0보다 크다면, 여기에는 여러 원인이 있을 수 있습니다. 그중 하나는 입력 특성과 출력 타깃 간 관계에 내재된 무작위성입니다. 우리가 컨트롤할 수 없는 영역이죠. 예를 들어 5년 동안 실무 경험을 한 경제학 전공자라고 모두 다 같은 연봉을 받지는 않습니다. 수많은 요인이 이들의 연봉을 결정합니다. 졸업한 대학교 같은 정보를 데이터에 추가하면 연봉 범위를 어느 정도 좁힐 수는 있을 것입니다. 그렇지만 무작위성은 여전히 존재하죠. 마찬가지로 자동차 레이스 트랙에서 사용하는 측정 장비나 기록원의 실수로 측정한 데이터가 다소 부정확할 수 있습니다.

여러분이 고등학교에서 배운 수학 공식과 무작위 프로세스의 근본적인 차이점은 출력이 갖는 범위입니다. 입력 값이 단 하나의 출력을 갖는 대신, 출력의 분포를 가지게 되는 것입니다. 주사위를 굴리거나 동전을 던지는 것처럼 말이지요. 무작위성이 데이터에 미치는 영향 정도를 데이터의 분산(variance)이라고 합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.