더북(TheBook)

train_test_split 함수를 사용하여 전체 데이터를 훈련 데이터와 검증 데이터로 분류합니다. 이 함수를 사용할 때, 분류할 데이터(Dataset), 검증 데이터 비율(test_size=0.2), 추출하는 방법(shuffle=False)을 결정합니다. 이렇게 분류한 후 훈련 데이터를 train_data 변수에, 검증 데이터를 test_data에 넣습니다.

그럼 지금부터 분류가 잘 이루어졌는지 확인해 봅시다. 훈련 데이터의 개수와 검증 데이터의 개수를 출력합니다.


훈련 데이터와 검증 데이터 추출 방법

추출하는 방법에는 2가지가 있습니다. 첫 번째는 무작위 추출(shuffle=True)이고 두 번째는 순차 추출(shuffle=False)입니다. 지금과 같이 순서가 중요한 시계열 데이터, 즉 여기에서는 날짜별 데이터를 사용할 때에는 순서를 맞춰서 데이터를 추출할 필요가 있습니다.

print(len(train_data), len(test_data))

훈련 데이터의 개수와 검증 데이터의 개수를 출력하는 코드입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.