머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 4.6 마무리

4.6 마무리

4.6.1 한계점과 아직 해결되지 않은 이슈들

이 장에서 다룬 내용에는 몇 가지 한계점이 있습니다. 상당수는 3장에서도 나온 내용입니다.

• 여러 가지 모델을 하나의 데이터셋으로만 비교해 보았습니다.

• 우리가 사용한 데이터셋은 아주 간단했습니다.

• 데이터셋에 별도로 전처리를 하지 않았습니다.

• 단순한 학습 -테스트 분리를 사용했습니다.

• 성능 평가를 위해 정확도만 사용했습니다.

• 다른 수의 최근접 이웃을 시도해 보지 않았습니다.

• 두 개의 단순한 모델만 비교해 보았습니다.

또 선형 회귀 모델은 표준화된 데이터를 사용하는 것에 상당히 민감합니다. 당뇨병 데이터셋은 미리 표준화가 되어 있었습니다. 하지만 다른 학습 문제를 풀 때는 표준화가 되어 있지 않을 수도 있기 때문에 이 전처리 과정을 꼭 신경 써야 합니다. 또 다른 이슈는 선형 회귀 모델의 가중치를 제한함으로써 얻는 이득입니다. 이것은 9.1절에서 더 자세히 살펴보겠습니다.

4.6.2 요약

이 장에서는 여러 가지를 살펴보았습니다.

1. diabetes 데이터: 간단한 실제 데이터셋

2. 선형 회귀와 최근접 이웃 회귀 모델

3. 중심을 측정하는 여러 가지 척도인 평균과 중앙값

4. 평균 제곱근 오차(RMSE)로 학습 성능 측정

4.6.3 참고 사항

diabetes 데이터는 여러 저명한 통계학자가 참여한 논문에서 구할 수 있습니다. 다음 링크를 참고하세요.

http://statweb.stanford.edu/~tibs/ftp/lars.pdf

4.6.4 연습 문제

여러분 스스로 회귀 문제를 풀어 보고 싶다고요? 이 장의 샘플 코드를 sklearn에 있는 다른 회귀 데이터셋에 적용해 보세요. datasets.load_boston이 아주 적절합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.