더북(TheBook)

4.2 최근접 이웃 회귀와 요약 통계량

이전 장에서는 최근접 이웃 분류를 알아보면서 다음 순서로 데이터를 처리했습니다.

1. 두 사례 간 유사도를 구합니다.

2. 가장 비슷한 사례 쌍을 몇 개 선정합니다.

3. 선택한 사례를 모아 하나의 답으로 조합합니다.

 

클래스나 범주가 아닌 수치형 값을 예측하는 경우에도 1단계와 2단계는 그대로 사용해도 됩니다. 이 두 단계는 여전히 유효합니다. 그런데 3단계는 조정이 필요합니다. 후보에 단순히 투표하는 것이 아니라 이제는 출력을 대표하는 값을 구해야 합니다. 그러기 위해서는 수치형 값들을 하나의 대표적인 답으로 조합해야 합니다. 다행히도 여러 값에서 하나의 요약치를 구하는 여러 편리한 기법이 있습니다. 일련의 데이터에서 산출한 값을 통계량(statistics)이라고 합니다. 전체 데이터셋을 이러한 값들로 대표하거나 요약하려고 한다면, 이를 요약 통계량(summary statistic)이라고 합니다. 그중 중앙값(median)과 평균(mean)을 알아봅시다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.