머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 4.2.2 k-NN 회귀 모델 생성

두 가지 차이점은 우리가 예측하려는 타깃, 즉 이진 범주가 아닌 수치형 값의 특징을 반영합니다. 아직 mean_squared_error(MSE)(평균 제곱 오차)를 설명하지 않았는데요. 다음에 나올 학습 방법인 선형 회귀를 배우고 나면 자연스럽게 이해할 수 있습니다. 그러니까 MSE로 회귀 모델을 평가하는 것은 잠시 기다려 주세요. 그래도 미리 알고 싶다면 4.5.1절을 읽어 보세요.

MSE 수치 값의 맥락을 보려면 다음 두 가지를 살펴보아야 합니다. 먼저 MSE 값은 대략 3500입니다. 오차 제곱을 모두 더했기 때문에 이 값에 제곱근을 씌워서 스케일을 다시 원래대로 돌리겠습니다.

In [9]:

np.sqrt(3500)

Out [9]:

59.16079783099616

이제 타깃이 취할 수 있는 값 범위를 살펴봅시다.

In [10]:

diabetes_df['target'].max() - diabetes_df['target'].min()

Out [10]:

321.0

타깃 값들은 300 정도인데 예측 값은 60 정도로 상당히 빗나갔습니다. 20% 정도입니다. 이 예측 결과가 적당히 좋은 수준인지는 7장에서 살펴볼 다양한 요인에 달려 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.