5.1.1 주성분 분석의 주요 단계
이 절에서 비지도 선형 변환 기법인 PCA를 설명합니다. 주로 특성 추출과 차원 축소 용도로 많은 분야에서 널리 사용합니다. PCA를 많이 사용하는 애플리케이션에는 탐색적 데이터 분석과 주식 거래 시장의 잡음 제거, 생물정보학 분야에서 게놈(genome) 데이터나 유전자 발현(gene expression) 분석 등이 있습니다.
PCA는 특성 사이의 상관관계를 기반으로 하여 데이터에 있는 어떤 패턴을 찾을 수 있습니다. 요약해서 말하면 PCA는 고차원 데이터에서 분산이 가장 큰 방향을 찾고 좀 더 작거나 같은 수의 차원을 갖는 새로운 부분 공간으로 이를 투영합니다. 새로운 부분 공간의 직교 좌표(주성분(principal component))는 주어진 조건하에서 분산이 최대인 방향으로 해석할 수 있습니다. 새로운 특성 축은 그림 5-1과 같이 서로 직각을 이룹니다.
▲ 그림 5-1 PCA를 사용하여 데이터에서 가장 분산이 큰 방향 찾기