7.4.5 데이터셋 분할
앞서 K-최근접 이웃 알고리즘의 회귀 예에서 말한 바와 같이 전체 데이터 중 일부를 훈련용 데이터로 사용하고, 나머지를 모델 검증용 데이터로 사용한다. 따라서 전체 데이터의 80%는 훈련용으로 저장하고, 나머지는 검증용으로 저장한다.
# 훈련용 데이터셋 비중을 80%로 정한다
train_pct = 0.8
# 전체 데이터셋의 크기 len(df)에 훈련용 데이터셋 비중 train_pct를 곱한다. 개수는 정숫값이므로 int 함수로 정숫값으로 만든다
split = int( train_pct * len(df) )
# 훈련용 예측 데이터는 X_train으로, 훈련용 목표 데이터는 X_test로, 검증용 예측 데이터는 y_train으로, 검증용 목표 데이터는 y_test로 저장한다
X_train, X_test, y_train, y_test = X[:split], X[split:], y[:split], y[split:]