① split()을 이용하여 훈련 데이터셋을 훈련과 검증 용도로 분리합니다.
ⓐ random_state: 데이터 분할 시 데이터가 임의로 섞인 상태에서 분할됩니다. 이때 시드(seed) 값을 사용하면 동일한 코드를 여러 번 수행하더라도 동일한 값의 데이터를 반환합니다.
ⓑ split_ratio: 데이터의 분할 정도를 의미합니다. 훈련과 검증 데이터셋을 8:2로 분리합니다.
분할된 데이터셋의 크기(개수)를 확인합니다.
코드 7-9 데이터셋 개수 확인
print(f'Number of training examples: {len(train_data)}')
print(f'Number of validation examples: {len(valid_data)}')
print(f'Number of testing examples: {len(test_data)}')
다음과 같이 분할된 데이터셋의 크기가 출력됩니다.
Number of training examples: 20000 Number of validation examples: 5000 Number of testing examples: 25000