차원 축소를 위한 PCA 알고리즘을 자세히 알아보기 전에 사용할 방법을 몇 단계로 나누어 정리해 보겠습니다.
1. d 차원 데이터셋을 표준화 전처리합니다.
2. 공분산 행렬(covariance matrix)을 만듭니다.
3. 공분산 행렬을 고유 벡터(eigenvector)와 고윳값(eigenvalue)으로 분해합니다.
4. 고윳값을 내림차순으로 정렬하고 그에 해당하는 고유 벡터의 순위를 매깁니다.
5. 고윳값이 가장 큰 k개의 고유 벡터를 선택합니다. 여기에서 k는 새로운 특성 부분 공간의 차원입니다(k ≤ d).
6. 최상위 k개의 고유 벡터로 투영 행렬(projection matrix) W를 만듭니다.
7. 투영 행렬 W를 사용해서 d 차원 입력 데이터셋 X를 새로운 k 차원의 특성 부분 공간으로 변환합니다.
다음 절에서 연습을 위해 파이썬으로 PCA를 하나씩 구현해 보겠습니다. 그다음 사이킷런을 사용하여 좀 더 편리하게 PCA를 수행하는 방법을 알아봅니다.