머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 5.3.1 합성 데이터와 선형 회귀

데이터를 시각화해 봅시다. 동그란 점은 훈련 세트에 있는 데이터입니다. 십자 모양은 테스트 세트에 있는 입력 특성을 의미합니다. 이들이 y축상에서 어떤 값을 가져야 하는지 알아내야 합니다.

In [3]:

plt.plot(train_ftr, train_tgt, 'bo')
plt.plot(test_ftr, np.zeros_like(test_ftr), 'r+');

이 문제는 전형적인 회귀 문제입니다. 입력 데이터에서 수치형 타깃 값을 예측합니다. 이전 장에서 배운 선형 회귀(LR) 모델을 이용해 보겠습니다.

In [4]:

# 노트: sklearn은 2차원 입력(테이블)을 정말 좋아합니다
# 따라서 데이터의 형태를 재구성(reshape)합니다
sk_model = linear_model.LinearRegression()
sk_model.fit(train_ftr.reshape(-1, 1), train_tgt)
sk_preds = sk_model.predict(test_ftr.reshape(-1, 1))
sk_preds[:3]

Out [4]:

array([53.218 , 41.4552, 56.8374])

이 예측 값은 평가하지 않겠습니다. 훈련 세트의 타깃 값처럼 양수가 출력되었군요.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.