다음은 (모든 범주형 칼럼의 고유 값 수, 차원의 크기) 형태의 배열을 출력한 결과입니다.
[(4, 2), (4, 2), (4, 2), (3, 2), (3, 2), (3, 2)]
데이터셋을 훈련과 테스트 용도로 분리합니다.
코드 2-8 데이터셋 분리
total_records = 1728
test_records = int(total_records * .2) ------ 전체 데이터 중 20%를 테스트 용도로 사용
categorical_train_data = categorical_data[:total_records - test_records]
categorical_test_data = categorical_data[total_records - test_records:total_records]
train_outputs = outputs[:total_records - test_records]
test_outputs = outputs[total_records - test_records:total_records]
데이터를 훈련과 테스트 용도로 올바르게 분할했는지 확인하기 위해 레코드 개수를 출력해 보겠습니다.
코드 2-9 데이터셋 분리 확인
print(len(categorical_train_data))
print(len(train_outputs))
print(len(categorical_test_data))
print(len(test_outputs))