머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 3.5.5 k-nn 분류 모델 생성

와, 100%가 나왔군요. 아주 잘하고 있습니다! 머신 러닝은 아주 쉬운 것처럼 보이는군요. 하지만 사실은 그렇지 않습니다. 이것은 잠시 후에 다시 살펴보죠. k-NN 분류의 세부 사항은 잠시 접어 두고 sklearn에서 모델을 만들고 평가하는 간단한 작업 흐름 템플릿을 적어 보겠습니다.

1. 모델을 만듭니다.

2. 모델을 훈련 데이터로 적합합니다.

3. 학습된 모델을 사용해서 테스트 데이터에 대한 예측을 수행합니다.

4. 예측의 질을 평가합니다.

이 작업 흐름을 기계로 비유한 모델 개념에 연결시켜 봅시다.

1. 기계와 그 손잡이를 설치합니다.

2. 손잡이를 조정하고 재료를 적절히 집어넣어 훈련 데이터를 학습합니다.

3. 새로운 사례를 기계에 집어넣어 어떤 것이 출력되는지 확인합니다.

4. 출력품의 질을 평가합니다.

마지막으로 짧게 짚고 넘어가겠습니다. 3-최근접 이웃에서 3은 학습으로 조정하는 값이 아닙니다. 이것은 학습 기계의 내부 부품입니다. 3을 5로 바꾸는 손잡이는 달려 있지 않습니다. 5-NN 기계를 원한다면 완전히 새로운 기계를 다시 만들어야 합니다. 3은 k-NN의 학습 프로세스를 통해 조정할 수 있는 값이 아닙니다. 3은 하이퍼파라미터입니다. 하이퍼파라미터는 학습하거나 학습 방법론으로 조정할 수 없습니다. 이는 곧 게임 규칙에 동의하고 나서 그 고정된 규칙으로 게임을 플레이하는 것과 같습니다. 우리가 캘빈볼(Calvinball)¹이나 <매트릭스>의 네오가 되지 않는 한 게임 규칙은 변하지 않습니다. 하이퍼파라미터는 이미 정해져 있으며 학습 도중에 바꿀 수 없는 것이라고 생각하면 됩니다. 하이퍼파라미터를 조정하는 것은 개념적으로 또는 말 그대로, 학습 과정이나 공장 기계 바깥에서 작동합니다. 이것은 11장에서 다루겠습니다.

1 역주 만화 <캘빈과 홉스>에 수록된 게임으로 플레이어들이 규칙을 만들어 나갑니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.