머신 러닝 교과서 with 파이썬, 사이킷런, 텐서플로(개정 3판): 4.3 데이터셋을 훈련 데이터셋과 테스트 데이터셋으로 나누기

판다스 라이브러리를 사용하면 UCI 머신 러닝 저장소로부터 Wine 데이터셋을 바로 읽어 들일 수 있습니다.

>>> df_wine = pd.read_csv('https://archive.ics.uci.edu/'
                          'ml/machine-learning-databases/'
                          'wine/wine.data', header=None)
>>> df_wine.columns = ['Class label', 'Alcohol',
...                    'Malic acid', 'Ash',
...                    'Alcalinity of ash', 'Magnesium',
...                    'Total phenols', 'Flavanoids',
...                    'Nonflavanoid phenols',
...                    'Proanthocyanins',
...                    'Color intensity', 'Hue',
...                    'OD280/OD315 of diluted wines',
...                    'Proline']
>>> print('클래스 레이블', np.unique(df_wine['Class label']))
클래스 레이블 [1 2 3]
>>> df_wine.head()

와인 샘플 178개의 화학 성분을 나타내는 Wine 데이터셋의 특성 13개는 그림 4-3의 표와 같습니다.¹²

▲ 그림 4-3 Wine 데이터셋

12 역주 이 테이블에는 총 14개의 열이 있습니다. 첫 번째 열이 클래스 레이블이고 그다음 13개의 열이 특성에 해당합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.