머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 3.5 간단한 분류 모델 #1: 최근접 이웃, 먼 거리 관계, 가정

3.5 간단한 분류 모델 #1: 최근접 이웃, 먼 거리 관계, 가정

라벨링된 데이터셋으로 예측을 수행하는 가장 단순한 아이디어 중 하나는 다음 순서와 같습니다.

1. 서로 다른 두 가지 사례 간 유사성을 표현할 수 있는 방법을 찾습니다.

2. 새롭고 알려지지 않은 사례에 대해 예측을 수행할 때, 알려진 사례 중 가장 비슷한 것의 값을 채택합니다.

이 방식은 최근접 이웃 알고리즘입니다. 저는 친구들인 마크, 바브, 에단이 가장 좋아하는 간식이 무엇인지 알고 있습니다. 새로 사귄 친구 앤디는 마크와 취향이 비슷합니다. 마크가 가장 좋아하는 간식은 치토스죠. 그래서 저는 마크와 같이 앤디가 가장 좋아하는 것은 치토스라고 추측합니다.

이 기본 템플릿을 변형하는 방법은 많습니다. 가장 비슷한 샘플 개수를 하나 이상으로 선택하는 방법을 고려해 볼까요?

1. 사례 페어 간에 유사도를 표현합니다.

2. 가장 유사도가 높은 사례를 여러 개 선별합니다.

3. 여러 결과를 종합하여 하나의 답을 얻습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.