더북(TheBook)

5.1 평가와 과유불급

노자: 남을 아는 자는 지혜롭고, 자신을 아는 자는 밝은 자다.

학습 시스템을 개발하는 데 있어 가장 큰 리스크는 그 시스템 성능을 과대평가하는 것입니다. 분류 모델을 살펴볼 때 이 리스크를 잠깐 살펴보았습니다. 시험 문제를 달달 외워서 공부한 내용을 잘 이해했다고 착각한 사람들은 시험을 망치고 맙니다. 이러한 경험을 했던 사람들은 과대평가 리스크가 무엇인지 잘 알 것입니다. 많은 것을 안다고, 또 시험을 잘 볼 것이라고 생각해도 실제로는 시험을 망치는 경우가 많습니다. 시험을 치면 공부한 내용이 대략적으로 생각나기는 하지만, 적어 내야 하는 디테일이 기억나지 않는 경우도 있습니다. 예를 들어 어떤 역사적 사건이 19세기 중반에 일어났다는 것은 알고 있지만, 그것이 1861년이었는지 1862년이었는지는 참 헷갈리죠. 설상가상으로 어떤 부분을 세세하게 공부하느라 다른 부분을 대충 넘어간다면, 꼭 알아야 하는 부분을 완전히 놓쳐 버릴 수도 있습니다. 기껏 어떤 인물의 탄생 연도를 외웠는데 다른 인물의 이름을 묻는 문제가 나온다든지 하는 경우죠.

학습 시스템에는 이와 비슷한 두 가지 이슈가 있습니다. 시험을 목표로 공부할 때 여러분이 기억할 수 있는 것에는 한계가 있습니다. 뇌 용량이 꽉 차는 것이죠. 세세한 디테일을 모두 외우는 것은 불가능합니다. 한 가지 해결 방법은 세세한 디테일을 하나하나 외우는 대신 큰 그림을 기억해 두는 것입니다. 시험이 디테일을 적어 내는 것이 아니라면 이 방법은 좋은 전략입니다. 시험 공부할 때 겪는 또 다른 고통은 여러분 친구나 배우자, 아이 등 주변 사람들이 “잠깐 나 좀 봐.” 하면서 귀찮게 구는 것입니다. 새로 나온 비디오 게임은 정말 큰 유혹이죠. 즉, 주변의 소음에 정신이 팔린다는 것입니다.

한정된 처리 능력과 잡음 때문에 발생한 산만함은 컴퓨터 학습 시스템도 동일하게 겪는 문제입니다. 학습 시스템은 요새 유행하는 유튜브나 페이스북에 정신이 팔리지는 않습니다. 학습 시스템이 겪는 오류를 편향(bias)과 분산(variance)이라고 합니다. 간단히 소개하자면, 편향은 머릿속으로 집어넣는 정보의 용량이며 분산은 잡음으로 인한 산만함 정도를 의미합니다. 일단은 이렇게만 알아 두고 넘어갑시다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.