머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 1.7 학습의 현실과 가정

다음은 측정 오차입니다. 데이터 테이블에 담긴 모든 값이 100% 정확할 수는 없습니다. 측정 도구에 약간의 문제가 있을 수도 있고, 기록하는 사람마다 소수점을 다르게 처리할 수도 있습니다. 혹은 설문 조사에서 거짓으로 응답하는 경우도 있죠. 정말 끔찍하군요! 이것이 우리가 마주치는 현실입니다. 혼신의 힘을 다해서 측정을 하더라도, 이 과정을 반복하면 차이가 발생하기 마련이지요. 실수란 하게 마련입니다. 좋은 소식은 학습 시스템이 이러한 결점을 어느 정도 감내할 수 있다는 것입니다. 나쁜 소식은 노이즈가 커지면 찾고자 하는 패턴을 발견하지 못할 수도 있다는 것입니다.

또 다른 이슈는 일반적으로 학습에 도움이 되는 정보를 모두 알 수 없다는 것입니다. 타깃이 100% 정확하게 기록되었는지 알지 못할 때도 있습니다. 그렇게 되면 입력과 출력 간 관계를 파악하려고 할 때 유용한 정보를 발견하지 못할 수도 있습니다. 모든 쓸모 있는 정보를 완벽히 정밀하게 측정했다고 하더라도, 이 세상에 있는 어떤 것들은 근본적으로 무작위한 성질이 있습니다. 주식 시장을 랜덤 워크로 바라보는 사람들의 주장이 맞다면 주식 가격의 흐름은 근본적으로 무작위로 움직입니다. 조금 더 거시적인 규모의 현상에서는 무작위성이 약해질 수 있지만 여전히 존재합니다. 핵심적인 측정치를 누락하면 데이터에서 유의미한 관계를 찾지 못할 수도 있습니다. 이는 마치 3차원 세상을 2차원 그림자만 보고 살아가는 것과 같습니다. 그림 1-4와 같이 서로 다른 3차원 물체가 동일한 2차원 그림자를 만들어 낼 수 있습니다. 마찬가지로 측정치가 누락되면 충분히 탐지해 낼 수 있는 관계도 놓치게 됩니다.

▲ 그림 1-4 관점이 현실 인식을 결정한다

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.