더북(TheBook)

5.1.1 주성분 분석의 주요 단계

이 절에서 비지도 선형 변환 기법인 PCA를 설명합니다. 주로 특성 추출과 차원 축소 용도로 많은 분야에서 널리 사용합니다. PCA를 많이 사용하는 애플리케이션에는 탐색적 데이터 분석과 주식 거래 시장의 잡음 제거, 생물정보학 분야에서 게놈(genome) 데이터나 유전자 발현(gene expression) 분석 등이 있습니다.

PCA는 특성 사이의 상관관계를 기반으로 하여 데이터에 있는 특성을 잡아낼 수 있습니다. 요약해서 말하면 PCA는 고차원 데이터에서 분산이 가장 큰 방향을 찾고 좀 더 작거나 같은 수의 차원을 갖는 새로운 부분 공간으로 이를 투영합니다. 새로운 부분 공간의 직교 좌표(주성분(principal component))는 주어진 조건하에서 분산이 최대인 방향으로 해석할 수 있습니다. 새로운 특성 축은 그림 5-1과 같이 서로 직각을 이룹니다.

▲ 그림 5-1 원본 특성에서 찾은 주성분

그림 5-1에서 x1x2는 원본 특성 축이고 PC1PC2는 주성분입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.