더북(TheBook)

일반적인 참고 사항

우리가 학습이라고 하는 것은 일종의 최적화 문제를 푸는 것과 같습니다. 어떤 제약 조건이 주어졌을 때 최적의 손잡이 값을 찾기 위해 이리저리 손잡이를 돌려 보는 것입니다.

학습 시스템의 표현력과 원천 데이터는 상호 작용합니다. 예를 들어 두 점은 직선을 구성합니다. 점이 두 개뿐이라면 직선이 아닌 굽은 곡선을 만들 수는 없습니다. 그런데 두 점을 생성하는 방법은 무한합니다. 그리고 이 중 대부분은 단순한 직선이 아닙니다.

최근접 이웃의 편향에 대한 흥미로운 면을 하나 소개합니다. 특성 개수가 매우 많아지면 1-NN은 어떻게 될까요? 우주에서는 고함을 쳐도 들리지 않는다는 것을 알고 있나요? 특성이 아주 많아지면, 즉 고차원 공간에서도 같은 상황이 발생합니다. 고차원 공간에서 모두는 서로에게서 아주 멀리 떨어져 있기 때문에 그 누구도 고함 소리를 들을 수 없습니다. 이 현상은 차원의 저주(Curse of Dimensionality)의 한 단면입니다. 학습 관점에서 보면, 차원의 저주는 어떤 데이터도 가까이 있지 않기 때문에 어떤 값을 취해야 할지 모르는 상황입니다. 편향이 너무 심해서 예측이 매우 부정확해집니다.

평가를 위해 데이터를 리샘플링하는 방법에는 여러 가지가 있습니다. 이 장에서 교차 검증과 반복적 훈련-테스트 분리(RTTS)를 다루었지요. 반복적 훈련-테스트 분리의 또 다른 이름은 몬테카를로 교차 검증(Monte Carlo cross-validation)입니다. 학습이나 통계 맥락에서 몬테카를로라는 표현이 보이면 ‘반복적 무작위 수행’이라는 표현으로 바꾸어 보세요. 몬테카를로 교차 검증은 훈련-테스트 분리의 무작위성을 반복적으로 수행합니다. 그에 반해 일반적인 교차 검증에서 무작위성은 일회성에 그칩니다. 각 리샘플링 평가는 타깃 수량에 대한 추정치를 만듭니다. 놀랍게도 이것은 그 자체가 편향과 분산을 가지고 있다는 것을 의미합니다. 맙소사, 또다시 메타 세계로 빠지고 말았습니다! 더 궁금하다면 코하비(Kohavi)가 쓴 수식으로 가득 찬 논문인 “A Study of Cross-validation and Bootstrap for Accuracy Estimation and Model Selection”을 읽어 보세요.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.