프로그래머가 알아야 할 알고리즘 40: 7.2.1 분류 문제 소개

특성과 라벨 설정하기

데이터셋에서 특성과 라벨을 설정하는 단계입니다. 이 책에서는 라벨을 y로, 특성을 X로 표기합니다.

[in :]

y = result['Purchased']
X = result.drop(columns=['Purchased'])

특성 벡터인 X에는 모델을 훈련하는 데 필요한 모든 입력 변수가 포함되어 있습니다.

훈련-테스트 분리하기

sklearn.model_selection import train_test_split을 이용해 전체 데이터를 훈련용(75%)과 테스트용(25%)으로 나눕니다.

[in :]

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

이로써 다음과 같은 4개의 데이터가 생성됩니다.

• X_train: 훈련 데이터셋의 특성

• X_test: 테스트 데이터셋의 특성

• y_train: 훈련 데이터셋의 라벨

• y_test: 테스트 데이터셋의 라벨

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.