더북(TheBook)

그럼 스케일이 다른 특성을 맞추는 대표적인 방법 두 가지인 정규화(normalization)표준화(standardization)에 대해 알아보겠습니다. 이 용어는 분야마다 조금씩 다르게 사용됩니다. 문맥에 따라 의미를 이해하는 것이 좋습니다. 대부분 정규화는 특성의 스케일을 [0, 1] 범위에 맞추는 것을 의미합니다. 최소-최대 스케일 변환(min-max scaling)의 특별한 경우입니다. 데이터를 정규화하기 위해 다음과 같이 각 특성의 열마다 최소-최대 스케일 변환을 적용하여 샘플 x(i)에서 새로운 값 를 계산합니다.

여기에서 x(i)는 특정 샘플이고, xmin은 특성 중에서 가장 작은 값이고 xmax는 가장 큰 값입니다.

사이킷런에 구현된 최소-최대 스케일 변환 기능은 다음과 같이 사용합니다.

>>> from sklearn.preprocessing import MinMaxScaler
>>> mms = MinMaxScaler()
>>> X_train_norm = mms.fit_transform(X_train)
>>> X_test_norm = mms.transform(X_test)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.