사이킷런의 train_test_split 함수를 사용하면 데이터셋을 손쉽게 무작위로 나눌 수 있다. 먼저 데이터셋을 입력 변수 X와 목표 변수 y로 분리하자.
from sklearn.model_selection import train_test_split X = df.loc[:, df.columns != 'Outcome'] y = df.loc[:, 'Outcome']
그런 다음, 그림 2-12처럼 데이터를 1차 분할해 훈련 데이터셋(80%)과 테스트 데이터셋(20%)을 만든다.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
마지막 2차 분할로 훈련 데이터셋과 검증 데이터셋을 만든다.
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2)