머신 러닝 교과서: 파이토치 편: 4.3 데이터셋을 훈련 데이터셋과 테스트 데이터셋으로 나누기

판다스 라이브러리를 사용하면 UCI 머신 러닝 저장소로부터 Wine 데이터셋을 바로 읽어 들일 수 있습니다.

>>> df_wine = pd.read_csv('https://archive.ics.uci.edu/'
                          'ml/machine-learning-databases/'
                          'wine/wine.data', header=None)
>>> df_wine.columns = ['Class label', 'Alcohol',
...                    'Malic acid', 'Ash',
...                    'Alcalinity of ash', 'Magnesium',
...                    'Total phenols', 'Flavanoids',
...                    'Nonflavanoid phenols',
...                    'Proanthocyanins',
...                    'Color intensity', 'Hue',
...                    'OD280/OD315 of diluted wines',
...                    'Proline']
>>> print('클래스 레이블', np.unique(df_wine['Class label']))
클래스 레이블 [1 2 3]
>>> df_wine.head()

와인 샘플 178개의 화학 성분을 나타내는 Wine 데이터셋의 특성 13개는 그림 4-4의 표와 같습니다.¹²

▲ 그림 4-4 Wine 데이터셋

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.