실습 | 데이터 스케일링 및 학습셋, 테스트셋 준비하기
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold from matplotlib import pyplot from sklearn.preprocessing import StandardScaler import pandas as pd import matplotlib.pyplot as plt # 깃허브에 준비된 데이터를 가져옵니다. !git clone https://github.com/taehojo/data.git # 피마 인디언 당뇨병 데이터셋을 불러옵니다. = pd.read_csv('./data/pima-indians-diabetes3.csv') # 세부 정보를 X로 지정합니다. X = . [:,0:8] # 당뇨병 여부를 y로 지정합니다. = . [:,8] = StandardScaler() = pd.DataFrame( .fit_transform(X), =X. ) , = plt.subplots(1, 2, =(12,4)) X.plot( ='kde', ='Raw data', = [0]) .plot( ='kde', ='StandardScaler', = [1]) plt.show() # 학습셋과 테스트셋을 75:25의 비율로 나눕니다. , , , = train_test_split(X, , =0.25, =0)