더북(TheBook)

사이킷런의 train_test_split 함수를 사용하면 데이터셋을 손쉽게 무작위로 나눌 수 있다. 먼저 데이터셋을 입력 변수 X와 목표 변수 y로 분리하자.

from sklearn.model_selection import train_test_split

X = df.loc[:, df.columns != 'Outcome']
y = df.loc[:, 'Outcome']

그런 다음, 그림 2-12처럼 데이터를 1차 분할해 훈련 데이터셋(80%)과 테스트 데이터셋(20%)을 만든다.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

마지막 2차 분할로 훈련 데이터셋과 검증 데이터셋을 만든다.

X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.