더북(TheBook)

이 데이터는 그림 1-4의 그래프 A에서 한 패턴을 보여 줍니다. 기계가 어떻게 x, y 좌표를 바탕으로 점의 색상을 결정할까요? 흰색 점의 x 좌표 범위가 검은색 점의 x 좌표 범위와 겹치기 때문에 단순하게 x 좌표를 한 숫자와 비교할 수 없습니다! 비슷하게 y 좌표도 사용할 수 없습니다. 따라서 원본 표현은 검은색-흰색 분류 작업에 적합하지 않습니다.

더 직관적인 방법으로 두 색상을 나누는 새로운 표현이 필요합니다. 여기에서는 원본 직교 좌표 x-y 표현을 극 좌표계로 변환했습니다. 다른 말로 하면, 1) 원점과 점(그림 1-4의 그래프 A에 있는 샘플)을 연결한 직선과 x축이 만드는 각도와 2) 원점에서부터의 거리인 반지름입니다. 이렇게 변환하면, 그림 1-4의 그래프 B에 나타나 있듯이 동일한 데이터 집합의 새로운 표현이 만들어집니다. 이 표현에서는 검은색 점과 흰색 점이 전혀 겹쳐지지 않으므로 해당 작업에 더 잘 맞습니다. 하지만 새 표현은 (0과 같은) 어떤 임계값과 비교하여 간단히 검은색-흰색 분류를 할 수 없기 때문에 여전히 이상적이지 않습니다.

다행히 두 번째 변환을 적용해 이상적인 표현을 얻을 수 있습니다. 이 변환은 간단한 공식에 기반합니다.

(절댓값 각도) - 135도

그래프 C에서 보듯이 만들어진 표현은 1차원입니다. 그래프 B에 있는 표현과 비교해 보면 원점까지의 거리에 관한 불필요한 정보를 삭제했습니다. 하지만 정말 간단하게 결정을 내릴 수 있는 완벽한 표현입니다.

if 표현의 값 < 0, 이 점을 흰색으로 분류합니다;

else, 점을 검은색으로 분류합니다

이 예에서 두 단계의 데이터 표현 변환을 수동으로 정의했습니다. 만약 정확히 분류된 점의 비율을 피드백으로 사용해 가능한 다른 좌표 변환을 자동으로 탐색한다면 머신 러닝을 하는 것입니다. 실제 머신 러닝 문제를 해결하기 위한 변환 단계의 수는 일반적으로 두 개보다 훨씬 많습니다. 특히 딥러닝에서는 수백 개가 될 수 있습니다. 또한, 실제 머신 러닝의 표현 변환의 종류는 간단한 이 예에서 본 것보다 훨씬 복잡합니다. 딥러닝 분야는 지속적으로 연구되고 있어서 더 정교하고 강력한 변환 방법을 발견합니다. 하지만 그림 1-4에 있는 예는 좋은 표현 탐색에 대한 핵심을 보여 줍니다. 이는 신경망, 결정 트리, 커널 방법 등을 포함하여 모든 머신 러닝 알고리즘에 적용됩니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.