머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 1.7 학습의 현실과 가정

1.7 학습의 현실과 가정

머신 러닝은 마법이 아닙니다. 놀란 얼굴들이 보이네요. 머신 러닝의 학습은 근본적인 한계를 뛰어넘을 수 없습니다. 무슨 한계가 있을까요? 그중 두 가지는 우리가 가진 데이터와 직접적으로 연관되어 있습니다. 심장병 여부를 예측할 때 머리카락이나 양말 색은 제대로 동작하는 모델을 만드는 데 별 도움이 되지 않습니다. 쓸모 있는 특성이 하나도 없다면, 데이터가 가진 무작위 노이즈를 찾아낼 뿐이죠. 유용한 특성이 있더라도 쓸데없는 특성이 그보다 훨씬 많다면, 학습 모델은 유용한 관계를 찾아내지 못하고 학습에 실패할 수도 있습니다. 첫 번째 근본적인 한계는 문제를 푸는 데 적합한 특성을 보유해야 한다는 것입니다.

데이터가 가진 두 번째 한계점은 양(quantity)입니다. 계산 학습 이론(computational learning theory)은 수학적으로 이상적인 조건하에서 학습에 필요한 사례 개수를 탐구하는 학문 분야입니다. 실용적인 관점에서 답은 다다익선입니다. 데이터가 많으면 많을수록 좋습니다. 제 경험에 비추어 보았을 때 데이터가 알고리즘보다 더 중요합니다. 하지만 언제나 그렇듯 디테일이 중요하죠. 기록상 오류나 무작위성 때문에 데이터에 지나치게 노이즈가 많다면 학습에 사용하기 어려울 수도 있습니다. 레슬링에서 체급을 올리거나 주방에서 더 큰 냄비를 쓰는 것처럼 더욱 강력한 모델을 사용하면 성능이 나아질 수도 있습니다. 그렇지만 더 큰 모델을 쓴다고 해서 항상 더욱 좋은 결과를 얻는 것은 아닙니다. 체급을 올린다고 해서 우승 확률이 올라가거나 더 큰 냄비를 쓴다고 맛이 좋아지는 것이 아니듯 말이죠.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.