더북(TheBook)

7.3.5 데이터셋 분할

전체 데이터셋을 훈련용 데이터와 검증용 데이터로 분할할 차례다. 훈련용 데이터는 모델을 학습하기 위한 것이며, 이를 이용해 모델을 만든다. 만들어진 모델의 성능을 평가할 때는 검증용 데이터를 사용한다. 보통 훈련용 데이터 개수와 검증용 데이터 개수는 전체 데이터셋에서 8:2 비율로 나눈다.

다음 코드에서 train_pct는 훈련용 데이터의 비중인데, 나머지 데이터(1-train_pct)는 자동으로 검증용 데이터가 될 것이다. 전체 데이터셋 df의 개수 len(df)train_pct를 곱해 정수 int로 만들면 훈련용 데이터셋의 개수 split이 된다.

train_pct = 0.7
split = int( train_pct*len( df ) )

예측변수 X와 목표변수 Ysplit만큼 가져와서 X_trainY_train에 저장한다.

X_train = X[ : split ]
Y_train = Y[ : split ]

나머지는 모두 검증용 데이터셋 X_testY_test가 된다.

X_test = X[ split: ]
Y_test = Y[ split: ]
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.