더북(TheBook)

Note ≡


역주 SimpleImputer 클래스의 missing_values 기본값이 np.nan입니다. strategy 매개변수에 mean, median, most_frequent 외에 constant를 사용할 수 있으며 기본값은 mean입니다. strategy='constant'일 때 fill_value 매개변수에 채우려는 값을 지정합니다. SimpleImputer에는 axis 매개변수가 없습니다. 기본 동작 방식은 Imputer 클래스의 axis=0일 때와 같습니다. 행 방향으로 대체할 값을 계산하려면 FunctionTransformer를 사용하여 처리할 수 있습니다. 다음 코드는 입력 행렬의 행과 열을 바꾸어 대체할 값을 계산한 후 다시 변환된 행렬의 열과 행을 바꿉니다.

>>> from sklearn.preprocessing import FunctionTransformer
>>> ftr_imr = FunctionTransformer(lambda X: imr.fit_transform(X.T).T, validate=False)
>>> imputed_data = ftr_imr.fit_transform(df.values)
>>> imputed_data
array([[ 1.     ,  2.     ,  3.        ,  4.     ],
       [ 5.     ,  6.     ,  6.33333333,  8.     ],
       [10.     , 11.     , 12.        , 11.     ]])

SimpleImputer 클래스의 add_indicator 매개변수를 True로 지정하면 indicator_ 속성이 추가되고 transform 메서드가 누락된 값의 위치를 포함된 배열을 반환합니다.

>>> imr = SimpleImputer(add_indicator=True) 
>>> imputed_data = imr.fit_transform(df.values) 
>>> imputed_data 
array([[ 1. ,  2. ,   3. ,  4. ,  0. ,  0. ],
       [ 5. ,  6. ,   7.5,  8. ,  1. ,  0. ],
       [10. , 11. ,  12. ,  6. ,  0. ,  1. ]])
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.