특성과 라벨 설정하기

    데이터셋에서 특성과 라벨을 설정하는 단계입니다. 이 책에서는 라벨을 y로, 특성을 X로 표기합니다.

    [in :]

    y = result['Purchased']
    X = result.drop(columns=['Purchased'])

    특성 벡터인 X에는 모델을 훈련하는 데 필요한 모든 입력 변수가 포함되어 있습니다.

     

    훈련-테스트 분리하기

    sklearn.model_selection import train_test_split을 이용해 전체 데이터를 훈련용(75%)과 테스트용(25%)으로 나눕니다.

    [in :]

    from sklearn.model_selection import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

    이로써 다음과 같은 4개의 데이터가 생성됩니다.

    X_train: 훈련 데이터셋의 특성

    X_test: 테스트 데이터셋의 특성

    y_train: 훈련 데이터셋의 라벨

    y_test: 테스트 데이터셋의 라벨

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.