더북(TheBook)

다음은 (모든 범주형 칼럼의 고유 값 수, 차원의 크기) 형태의 배열을 출력한 결과입니다.

[(4, 2), (4, 2), (4, 2), (3, 2), (3, 2), (3, 2)]

데이터셋을 훈련과 테스트 용도로 분리합니다.

코드 2-8 데이터셋 분리

total_records = 1728
test_records = int(total_records * .2) ------ 전체 데이터 중 20%를 테스트 용도로 사용

categorical_train_data = categorical_data[:total_records - test_records]
categorical_test_data = categorical_data[total_records - test_records:total_records]
train_outputs = outputs[:total_records - test_records]
test_outputs = outputs[total_records - test_records:total_records]

데이터를 훈련과 테스트 용도로 올바르게 분할했는지 확인하기 위해 레코드 개수를 출력해 보겠습니다.

코드 2-9 데이터셋 분리 확인

print(len(categorical_train_data))
print(len(train_outputs))
print(len(categorical_test_data))
print(len(test_outputs))
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.