더북(TheBook)

split()을 이용하여 훈련 데이터셋을 훈련과 검증 용도로 분리합니다.

random_state: 데이터 분할 시 데이터가 임의로 섞인 상태에서 분할됩니다. 이때 시드(seed) 값을 사용하면 동일한 코드를 여러 번 수행하더라도 동일한 값의 데이터를 반환합니다.

split_ratio: 데이터의 분할 정도를 의미합니다. 훈련과 검증 데이터셋을 8:2로 분리합니다.

분할된 데이터셋의 크기(개수)를 확인합니다.

코드 7-9 데이터셋 개수 확인

print(f'Number of training examples: {len(train_data)}')
print(f'Number of validation examples: {len(valid_data)}')
print(f'Number of testing examples: {len(test_data)}')

다음과 같이 분할된 데이터셋의 크기가 출력됩니다.

Number of training examples: 20000
Number of validation examples: 5000
Number of testing examples: 25000
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.