신경망 교과서: 2.6.2 데이터 표준화

preprocessing.scale() 함수는 판다스 DataFrame이 아닌 다른 객체를 반환하므로 DataFrame으로 다시 변환하자.

df_scaled = pd.DataFrame(df_scaled, columns=df.columns)

Outcome 칼럼은 예측할 목표 변수이므로 표준화할 필요 없다. 원래 Outcome 칼럼을 그대로 사용한다.

df_scaled['Outcome'] = df['Outcome']
df = df_scaled

변환한 데이터셋에서 각 변수의 평균, 표준편차, 최댓값을 계산해 출력해 보자.

print(df.describe().loc[['mean', 'std','max'],].round(2).abs())

▲ 그림 2-11 각 변수의 평균, 표준편차, 최댓값

각 변수의 범위가 훨씬 더 가까운 것을 볼 수 있다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.