다음은 데이터셋을 훈련과 검증 세트로 분리합니다.
코드 10-52 데이터셋을 훈련과 검증 세트로 분리
import math
TOTAL_BATCHES = math.ceil(len(sorted_reviews_labels) / BATCH_SIZE) ------ 전체 레코드를 32(배치 크기)로 나누어 줌으로써 전체 배치 크기를 구합니다.
TEST_BATCHES = TOTAL_BATCHES // 10 ------ 데이터의 10%는 검증을 위해 남겨 둡니다.
batched_dataset.shuffle(TOTAL_BATCHES)
test_data = batched_dataset.take(TEST_BATCHES)------ test_data에 데이터를 저장하려고 batched_dataset( ) 객체의 take( ) 메서드를 사용합니다.
train_data = batched_dataset.skip(TEST_BATCHES) ------ 나머지 데이터는 skip( ) 메서드를 사용하여 훈련을 위해 train_data에 저장합니다.
데이터셋이 준비되었기 때문에 이제 모델을 만들어 보겠습니다.
tf.keras.Model 클래스에서 상속된 TEXT_MODEL 클래스를 만듭니다. 클래스 내에서 모델 계층을 정의하는 데 합성곱층 세 개를 구성합니다. 이때 추가적인 학습을 하기 위해 LSTM이나 다른 모델을 사용해 볼 수도 있습니다.