머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 4.1 간단한 회귀 데이터셋

4.1 간단한 회귀 데이터셋

회귀는 입력 데이터에서 연속적인 수치 값을 예측하는 프로세스입니다. 수치형 결과가 포함된 간단한 데이터셋으로 회귀를 알아보겠습니다. sklearn에서 제공하는 diabetes(당뇨) 데이터셋이 쓸 만하겠네요. 이 데이터셋은 여러 가지 생체 정보와 인구통계학적 측정치를 가지고 있습니다. sklearn에 수록된 버전은 각 열의 평균값을 빼고 표준편차로 나눈 값으로 보정되어 있습니다. 이러한 과정을 ‘표준화’ 혹은 ‘z-점수화’라고 합니다. 표준편차는 값들이 얼마나 흩어져 있는지 측정한 것입니다. 이것은 나중에 다시 알아보겠습니다.

표준화로 각 열의 평균은 0이 되고 표준편차는 1이 됩니다. 데이터를 표준화하면 특성들의 범위가 달라 발생하는 가중치 변동을 막을 수 있습니다. 예를 들어 사람 키는 50인치(127cm)에서 100인치(254cm) 사이에 있지만, 소득은 $2만에서 $20만 사이로 값 범위가 크게 다릅니다. 표준화는 10.3절에서 더 다루겠습니다. diabetes 데이터셋에 있는 범주형 값들은 { 0, 1 } 숫자로 기록된 후 표준화 처리되었습니다. 그렇기 때문에 나이가 음수로 되어 있거나(표준화하면 평균 나이가 0이 됩니다) 성별이 { M, F } 대신 { 0.0507, - 0.0446 }으로 되어 있는 것이지요.

In [2]:

diabetes = datasets.load_diabetes()
tts = skms.train_test_split(diabetes.data, diabetes.target, test_size=.25)

(diabetes_train_ftrs, diabetes_test_ftrs,
 diabetes_train_tgt, diabetes_test_tgt) = tts

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.