더북(TheBook)

Note ≡ 동점 처리


다수결 투표가 동일할 경우 사이킷런의 KNN 구현은 분류하려는 데이터 포인트에 더 가까운 이웃을 예측으로 선택합니다. 이웃들의 거리가 같다면 훈련 데이터셋에서 먼저 나타난 샘플의 클래스 레이블을 선택합니다.

적절한 k를 선택하는 것은 과대적합과 과소적합 사이에서 올바른 균형을 잡기 위해 중요합니다. 데이터셋의 특성에 알맞은 거리 측정 지표를 선택해야 합니다. 붓꽃 데이터셋의 센티미터 단위를 가진 특성처럼 실수 값을 가진 특성에는 보통 간단한 유클리드 거리를 사용합니다. 유클리드 거리를 사용하려면 각 특성이 동일하게 취급되도록 표준화를 하는 것이 중요합니다. 앞 코드에서 사용한 minkowski 거리는 유클리드 거리와 맨해튼(Manhattan) 거리를 일반화한 것으로 다음과 같이 쓸 수 있습니다.

p = 2 매개변수로 지정하면 유클리드 거리가 되고 p = 1로 지정하면 맨해튼 거리가 됩니다.28 사이킷런에는 다른 거리 측정 기준이 많으며 metric 매개변수로 지정할 수 있습니다. 다음 주소를 참고하세요.

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.DistanceMetric.html

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.