좀 더 자세한 내용을 살펴보기 위해 예제 두 개를 진행해 보겠습니다. 동일한 데이터셋을 이용하여 하나의 예제는 정규화를 진행하지 않았을 때의 정확도를 알아보고, 또 다른 예제는 정규화를 진행했을 때의 정확도를 알아보겠습니다.
먼저 정규화를 진행하지 않았을 때의 예제를 살펴보는 데 필요한 라이브러리를 호출합니다.
코드 9-28 라이브러리 호출
import pandas as pd
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow.python.data import Dataset
from tensorflow.keras.utils import to_categorical
from tensorflow.keras import models
from tensorflow.keras import layers
내려받은 예제 파일의 data 폴더에 있는 covtype.csv 파일6을 메모리로 로딩합니다. covtype.csv 파일은 지역 4곳에 대한 환경과 나무들의 상태에 대해 정리한 데이터셋입니다.
6 Albert Bifet가 만든 데이터셋입니다(https://datahub.io/machine-learning/covertype). Forest Convertype 데이터셋의 정규화된 버전이며 수치가 0과 1 사이입니다. 해당 URL에서 내려받거나 길벗출판사의 깃허브(https://github.com/gilbutITbook/080263) 첫 페이지의 URL을 클릭해도 내려받을 수 있습니다. 내려받은 파일은 data 폴더에 넣어 주세요.