머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 3.5.4 k-NN, 파라미터와 논파라메트릭 방법들

3.5.4 k-NN, 파라미터와 논파라메트릭 방법들

k-NN이 우리가 다룰 첫 번째 모델이므로, 다른 방법들과 비교하기는 조금 어렵습니다. 비교는 조금 나중으로 미룰게요. 지금 바로 알아볼 중요한 차이점이 하나 있습니다. 자, 집중하세요!

학습 모델을 버튼과 레버가 옆에 달린 기계에 비유했던 것을 다시 떠올려 보세요. 다른 모델들과 달리, k-NN의 출력은 입력 데이터와 조정 가능한 버튼 몇 개로 계산할 수 있는 것이 아닙니다. 출력 값을 얻기 위해서는 학습 데이터 전부가 필요합니다. 진짜 그럴까요? 우리 훈련 사례 중 하나를 끄집어낸다고 상상해 봅시다. 그 사례는 새로운 테스트 사례에 가장 근접한 이웃일 것입니다. 그 사례가 유실된다면 출력에 영향을 미칠 것입니다. 이와 유사한 조건이 있는 여러 머신 러닝 방법이 있습니다. 테스트할 때 전부가 아니더라도 일부 학습 데이터가 필요한 모델들도 있습니다.

자, 정해진 양의 훈련 데이터에는 정해진 숫자의 버튼이 있다고 생각할 수도 있습니다. 예를 들어 사례가 100개 있고 각 사례마다 버튼이 한 개씩 달려 있다면, 버튼 100개가 있는 셈이죠. 좋아요. 그런데 여기에 사례를 하나 더 추가하면, 이는 버튼이 101개가 달린 전혀 다른 기계가 됩니다. 이러한 관점에서 k-NN 기계에 달린 버튼 개수는 학습 데이터의 사례 개수와 같습니다. 이러한 의존 관계를 더 잘 표현할 수 있는 방법이 있습니다. 우리 공장에 있는 기계에는 추가 정보를 넣을 수 있는 선반이 있습니다. 훈련 데이터를 이 부가적인 정보라고 생각합시다. 무엇을 선택하든 (1) 더 많은 버튼이나 (2) 선반이 필요하다면, 이러한 형태의 머신을 논파라메트릭(nonparametric)이라고 합니다. k-NN은 논파라메트릭 학습 방법입니다.

논파라메트릭 학습 방법은 사실 파라미터를 가질 수 있습니다. 이름이 조금 헷갈리죠? 어떤 방법론을 논파라메트릭이라고 한다면 특성과 타깃 간 관계가 고정된 개수의 파라미터만 이용하여 표현할 수 없다는 것을 의미합니다. 통계학자에게 이 콘셉트는 파라메트릭 vs. 논파라메트릭 통계와 관련되어 있습니다. 논파라메트릭 통계는 데이터에 강력한 가정을 사용하지 않습니다. 공장에 있는 블랙박스 기계가 현실과 어떻게 연결되어 있는지 어떤 가정도 하지 않았다는 것을 떠올려 보세요. 파라메트릭 모델은 (1) 모델의 형태를 가정하고, (2) 파라미터를 설정해서 특정한 모델을 선택합니다. 이는 다음 두 가지 질문에 대응됩니다. 기계에 어떤 버튼들이 달려 있나요? 버튼들은 어떤 값에 맞추어 있나요? k-NN을 사용할 때 이러한 가정은 하지 않지만, 또 다른 형태의 가정에 의존합니다. 가장 중요한 가정은 유사도 계산이 우리가 포착하고 싶은 실제 사례의 유사도와 관련되어 있다는 것입니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.