9.2.5 정규화

    데이터셋이 가진 특성(혹은 칼럼)의 모든 데이터가 동일한 정도의 범위(스케일 혹은 중요도)를 갖도록 하는 것이 정규화(normalization)입니다.

    머신 러닝/딥러닝은 데이터 특성들을 비교하여 패턴을 분석합니다. 이때 각각의 데이터가 갖는 스케일 차이가 크면 어떤 결과가 나타날까요? 예를 들어 다음과 같은 데이터셋이 있다고 가정해 봅시다. MonthlyIncome은 0~10000의 범위를 갖지만, RelationshipSatisfaction은 0~5의 범위를 갖습니다. 즉, MonthlyIncome과 RelationshipSatisfaction은 상당히 다른 값의 범위를 갖는데, 이 상태에서 데이터를 분석하면 MonthlyIncome 값이 더 크기 때문에 상대적으로 더 많은 영향을 미치게 됩니다. 하지만 중요한 것은 값이 크다고 해서 분석에 더 중요한 요소라고 간주할 수 없기 때문에 정규화가 필요한 것입니다.

    ▼ 표 9-2 정규화

    Monthly Income

    Age

    PercentSalary Hike

    Relationship Satisfaction

    TrainingTimes LastYear

    YearsInCurrent Role

    5993

    23

    11

    1

    0

    4

    5130

    55

    23

    4

    3

    7

    2090

    45

    15

    2

    3

    0

    2909

    60

    11

    3

    3

    7

    3468

    47

    12

    4

    3

    2

    3068

    51

    13

    3

    2

    7

    2670

    19

    20

    1

    3

    0

    2693

    33

    22

    2

    2

    0

    9526

    37

    21

    2

    2

    7

    5237

    59

    13

    2

    3

    7

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.