특성과 라벨 설정하기
데이터셋에서 특성과 라벨을 설정하는 단계입니다. 이 책에서는 라벨을 y로, 특성을 X로 표기합니다.
[in :]
y = result['Purchased']
X = result.drop(columns=['Purchased'])
특성 벡터인 X에는 모델을 훈련하는 데 필요한 모든 입력 변수가 포함되어 있습니다.
훈련-테스트 분리하기
sklearn.model_selection import train_test_split을 이용해 전체 데이터를 훈련용(75%)과 테스트용(25%)으로 나눕니다.
[in :]
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)
이로써 다음과 같은 4개의 데이터가 생성됩니다.
• X_train: 훈련 데이터셋의 특성
• X_test: 테스트 데이터셋의 특성
• y_train: 훈련 데이터셋의 라벨
• y_test: 테스트 데이터셋의 라벨