concat() 메서드는 선택된 범위 여러 개 또는 텍스트 여러 개를 하나의 문자열로 결합합니다. 칼럼 여섯 개를 concat() 메서드로 병합하여 다음 표와 같은 결과를 얻습니다.
▼ 표 2-2 원-핫 인코딩이 적용된 데이터셋
|
price_high |
price_low |
price_med |
price_vhigh |
maint_high |
maint_low |
maint_med |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
2 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
3 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
4 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
데이터셋을 훈련(train)과 검증(test) 용도로 분리합니다.
코드 2-5 훈련과 검증 데이터셋으로 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42) ------①
① train_test_split은 데이터셋을 훈련용과 테스트용으로 분리하는 메서드입니다. 메서드에서 사용되는 파라미터는 다음과 같습니다.