그다음 클래스 레이블을 이진 형태로 인코딩하고 80%는 훈련 데이터셋으로, 20%는 테스트 데이터셋으로 분리합니다.
>>> from sklearn.preprocessing import LabelEncoder
>>> from sklearn.model_selection import train_test_split
>>> le = LabelEncoder()
>>> y = le.fit_transform(y)
>>> X_train, X_test, y_train, y_test =\
... train_test_split(X, y,
... test_size=0.2,
... random_state=1,
... stratify=y)
Note ≡ Wine 데이터셋 받기
Wine 데이터셋(그리고 책에서 사용하는 다른 모든 데이터셋)은 책의 깃허브에 포함되어 있습니다. 인터넷을 사용하지 않을 때나 이따금 UCI 서버(https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data)에 접속되지 않을 때 사용할 수 있습니다. 예를 들어 로컬 디렉터리에서 Wine 데이터셋을 로드하려면 첫 번째 코드를 두 번째 코드처럼 바꿉니다.
df = pd.read_csv('https://archive.ics.uci.edu/ml/'
'machine-learning-databases'
'/wine/wine.data',
header=None)
df = pd.read_csv('your/local/path/to/wine.data',
header=None)