차원 축소: 데이터 압축
비지도 학습의 또 다른 하위 분야는 차원 축소(dimensionality reduction)입니다. 고차원의 데이터를 다루어야 하는 경우는 흔합니다. 즉, 하나의 관측 샘플에 많은 측정 지표가 있습니다. 이로 인해 머신 러닝 알고리즘의 계산 성능과 저장 공간의 한계에 맞닥뜨릴 수 있습니다. 비지도 차원 축소는 잡음(noise) 데이터를 제거하기 위해 특성 전처리 단계에서 종종 적용하는 방법입니다. 이런 잡음 데이터는 특정 알고리즘의 예측 성능을 감소시킬 수 있습니다. 차원 축소는 관련 있는 정보를 대부분 유지하면서 더 작은 차원을 가진 부분 공간(subspace)4으로 데이터를 압축합니다.
이따금 차원 축소는 데이터 시각화에도 유용합니다. 예를 들어 고차원 특성을 1차원 또는 2차원, 3차원 특성 공간으로 투영하여 3D와 2D 산점도(scatterplot)나 히스토그램(histogram)으로 시각화합니다. 그림 1-7은 비선형(nonlinear) 차원 축소를 적용하여 3D 스위스롤(Swiss Roll) 모양의 데이터를 새로운 2D 특성의 부분 공간으로 압축하는 예를 보여 줍니다.5
▲ 그림 1-7 3차원에서 2차원으로 줄인 차원 축소의 예