① MinMaxScaler(): 모든 칼럼이 0과 1 사이에 위치하도록 값의 범위를 조정합니다. 이때 특정 범위에서 많이 벗어난 데이터(이상치)의 경우 좁은 범위로 압축될 수 있습니다. 즉, 이상치에 매우 민감할 수 있기 때문에 주의해야 합니다.
MinMaxScaler()를 구하는 공식은 다음과 같습니다.
(x: 입력 데이터)
다음은 MinMaxScaler()를 구현하는 예시 코드입니다.
from sklearn.preprocessing import MinMaxScaler minMaxScaler = MinMaxScaler() ------ MinMaxScaler 객체 생성 minMaxScaler.fit(train_data) ------ fit() 함수를 사용하여 데이터셋에 정규화를 적용 train_data_minMaxScaled = minMaxScaler.transform(train_data) ------ transform() 함수를 사용하여 훈련 데이터셋을 적용
② StandardScaler(): 각 특성의 평균을 0, 분산을 1로 변경하여 칼럼 값의 범위를 조정합니다.
StandardScaler()를 구하는 공식은 다음과 같습니다.
(x: 입력 데이터, μ: 평균, σ: 표준편차)