신경망 교과서: 3.7 변수 스케일링

3.7 변수 스케일링

데이터셋을 신경망에 사용하기 전에 마지막으로 변수 스케일링 과정을 거쳐야 한다. 2장에서 살펴봤듯이, 변수 스케일링은 모든 특징 변수 값을 동일한 범위로 변환하는 작업이다. 변수 스케일링을 해야 하는 이유는 범위가 큰 변수가 다른 변수보다 모델에 더 큰 영향을 미치는 것을 방지하기 위해서다(예를 들어, 연도 값은 2000을 넘는 반면에 승객 수는 1에서 6 사이다).

변수 스케일링을 적용하기 전에 DataFrame을 복사하고 원본을 유지하는 편이 좋다. 변수 스케일링으로 변환한 값은 해석하기가 다소 어렵기 때문이다(예를 들어, 2010년은 -0.134로 변환된다). 원본을 유지해 원래 값을 쉽게 찾을 수 있도록 만들자.

df_prescaled = df.copy()

또한, 목표 변수(fare_amount)는 변환하지 않아도 되므로 스케일링을 적용하기 전에 제거한다.

df_scaled = df.drop(['fare_amount'], axis=1)

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.