ⓐ 첫 번째와 두 번째 파라미터: 데이터
데이터는 list, arrays, matrics, dataframe 등 다양한 형태를 포함합니다. 클래스 값을 포함하여 하나의 데이터로 받을 수도 있고, 클래스 값을 분리해서 데이터 두 개로도 받을 수 있습니다.
- 클래스 값을 포함하여 하나의 데이터로 받는 경우
df_train, df_test = train_test_split(df, test_size=0.4, random_state=0)
- 클래스를 개별 배열로 받는 경우
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)
ⓑ test_size: 테스트셋 비율을 나타냅니다. 0.20은 전체 데이터셋의 20%를 검증 데이터셋으로 지정하겠다는 의미입니다. 기본값은 0.25입니다.
ⓒ random_state: 데이터셋을 섞을 때 해당 값(int 값)을 참조하여 섞습니다. 하이퍼파라미터(hyper-parameter)6를 튜닝할 때 이 값을 고정해 두어야 매번 데이터셋이 변경되는 것을 방지할 수 있습니다.
6 학습률(learning rate)처럼 모델링을 할 때 사용자가 직접 세팅하는 값입니다.