더북(TheBook)

4.3 데이터셋을 훈련 데이터셋과 테스트 데이터셋으로 나누기

1장과 3장에서 데이터셋을 훈련 데이터셋과 테스트 데이터셋으로 분할하는 개념을 소개했습니다. 모델을 실전에 투입하기 전에 테스트 데이터셋에 있는 레이블과 예측을 비교합니다. 이는 편향되지 않은 성능을 측정하기 위해서라는 것을 기억하세요. 이 절에서는 새로운 Wine 데이터셋을 사용하겠습니다. 이 데이터셋을 전처리한 후 차원을 축소하기 위해 몇 가지 특성 선택 기법을 살펴보겠습니다.

Wine 데이터셋은 공개 데이터셋으로 UCI 머신 러닝 저장소(https://archive.ics.uci.edu/ml/datasets/Wine)에서 다운로드할 수 있습니다. 178개의 와인 샘플과 여러 가지 화학 성분을 나타내는 13개의 특성으로 구성되어 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.