더북(TheBook)

concat() 메서드는 선택된 범위 여러 개 또는 텍스트 여러 개를 하나의 문자열로 결합합니다. 칼럼 여섯 개를 concat() 메서드로 병합하여 다음 표와 같은 결과를 얻습니다.

▼ 표 2-2 원-핫 인코딩이 적용된 데이터셋

 

price_high

price_low

price_med

price_vhigh

maint_high

maint_low

maint_med

0

0

0

0

1

0

0

0

1

0

0

0

1

0

0

0

2

0

0

0

1

0

0

0

3

0

0

0

1

0

0

0

4

0

0

0

1

0

0

0

데이터셋을 훈련(train)과 검증(test) 용도로 분리합니다.

코드 2-5 훈련과 검증 데이터셋으로 분리

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42) ------①

train_test_split은 데이터셋을 훈련용과 테스트용으로 분리하는 메서드입니다. 메서드에서 사용되는 파라미터는 다음과 같습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.