데이터를 ‘속성(attribute)’과 ‘레이블(label)’로 나눕니다. 속성은 독립 변수이고 레이블은 종속 변수입니다. 따라서 MinTemp에 따라 MaxTemp를 예측하기 위해 x 변수는 'MinTemp'로 구성하고, y 변수는 'MaxTemp'로 구성합니다.
코드 3-25 데이터를 독립 변수와 종속 변수로 분리하고 선형 회귀 모델 생성
X = dataset['MinTemp'].values.reshape(-1,1)
y = dataset['MaxTemp'].values.reshape(-1,1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) ------ 데이터의 80%를 훈련 데이터셋으로 하고 데이터의 20%를 검증 데이터셋으로 분할
regressor = LinearRegression() ------ 선형 회귀 클래스를 가져옴
regressor.fit(X_train, y_train) ------ fit( ) 메서드를 사용하여 모델 훈련
다음은 선형 회귀 모델에 대한 실행 결과입니다.
LinearRegression()
테스트 데이터셋을 사용하여 몇 가지 예측을 해 보겠습니다. 먼저 X_test의 실제 출력 값을 예측 값과 비교해 보겠습니다.
코드 3-26 회귀 모델에 대한 예측
y_pred = regressor.predict(X_test)
df = pd.DataFrame({'Actual': y_test.flatten(), 'Predicted': y_pred.flatten()})
df