더북(TheBook)

3.7 변수 스케일링

데이터셋을 신경망에 사용하기 전에 마지막으로 변수 스케일링 과정을 거쳐야 한다. 2장에서 살펴봤듯이, 변수 스케일링은 모든 특징 변수 값을 동일한 범위로 변환하는 작업이다. 변수 스케일링을 해야 하는 이유는 범위가 큰 변수가 다른 변수보다 모델에 더 큰 영향을 미치는 것을 방지하기 위해서다(예를 들어, 연도 값은 2000을 넘는 반면에 승객 수는 1에서 6 사이다).

변수 스케일링을 적용하기 전에 DataFrame을 복사하고 원본을 유지하는 편이 좋다. 변수 스케일링으로 변환한 값은 해석하기가 다소 어렵기 때문이다(예를 들어, 2010년은 -0.134로 변환된다). 원본을 유지해 원래 값을 쉽게 찾을 수 있도록 만들자.

df_prescaled = df.copy()

또한, 목표 변수(fare_amount)는 변환하지 않아도 되므로 스케일링을 적용하기 전에 제거한다.

df_scaled = df.drop(['fare_amount'], axis=1)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.