딥러닝 텐서플로 교과서: 9.2.5 정규화

9.2.5 정규화

정규화(normalization)는 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어 주는 것입니다. 예를 들어 USA와 US는 의미가 같으므로, 같은 의미로 해석되도록 만들어 주는 과정입니다.

머신 러닝/딥러닝은 데이터 특성들을 비교하여 패턴을 분석합니다. 이때 각각의 데이터가 갖는 스케일 차이가 크면 어떤 결과가 나타날까요? 예를 들어 다음과 같은 데이터셋이 있다고 가정해 봅시다. MonthlyIncome은 0~10000의 범위를 갖지만, RelationshipSatisfaction은 0~5의 범위를 갖습니다. 즉, MonthlyIncome과 RelationshipSatisfaction은 상당히 다른 값의 범위를 갖는데, 이 상태에서 데이터를 분석하면 MonthlyIncome 값이 더 크기 때문에 상대적으로 더 많은 영향을 미치게 됩니다. 하지만 중요한 것은 값이 크다고 해서 분석에 더 중요한 요소라고 간주할 수 없기 때문에 정규화가 필요한 것입니다.

▼ 표 9-2 정규화

Monthly Income	Age	PercentSalary Hike	Relationship Satisfaction	TrainingTimes LastYear	YearsInCurrent Role
5993	23	11	1	0	4
5130	55	23	4	3	7
2090	45	15	2	3	0
2909	60	11	3	3	7
3468	47	12	4	3	2
3068	51	13	3	2	7
2670	19	20	1	3	0
2693	33	22	2	2	0
9526	37	21	2	2	7
5237	59	13	2	3	7

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.