4.3 데이터셋을 훈련 데이터셋과 테스트 데이터셋으로 나누기
1장과 3장에서 데이터셋을 훈련 데이터셋과 테스트 데이터셋으로 분할하는 개념을 소개했습니다. 모델을 실전에 투입하기 전에 테스트 데이터셋에 있는 레이블과 예측을 비교합니다. 이는 편향되지 않은 성능을 측정하기 위해서라는 것을 기억하세요. 이 절에서는 새로운 Wine 데이터셋을 사용하겠습니다. 이 데이터셋을 전처리한 후 차원을 축소하기 위해 몇 가지 특성 선택 기법을 살펴보겠습니다.
Wine 데이터셋은 공개 데이터셋으로 UCI 머신 러닝 저장소(https://archive.ics.uci.edu/ml/datasets/Wine)에서 내려받을 수 있습니다. 178개의 와인 샘플과 여러 가지 화학 성분을 나타내는 13개의 특성으로 구성되어 있습니다.
Note ≡ Wine 데이터셋 받기
Wine 데이터셋(그리고 책에서 사용하는 다른 모든 데이터셋)은 책의 깃허브에 포함되어 있습니다. 인터넷을 사용하지 않을 때나 이따금 UCI 서버(https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data)에 접속되지 않을 때 사용할 수 있습니다. 예를 들어 로컬 디렉터리에서 Wine 데이터셋을 로드하려면 첫 번째 코드를 두 번째 코드처럼 바꿉니다.
df = pd.read_csv('https://archive.ics.uci.edu/ml/'
'machine-learning-databases/wine/wine.data',
header=None)
df = pd.read_csv('your/local/path/to/wine.data',
header=None)