4장에서 여러 가지 특성 선택 방식을 사용하여 데이터셋의 차원을 축소하는 방법을 배웠습니다. 차원 축소를 위한 특성 선택의 또 다른 방식은 특성 추출(feature extraction)입니다. 이 장에서 데이터셋의 정보를 요약하는 세 가지 기본적인 기술을 배울 것입니다. 이들은 원본 데이터셋을 좀 더 낮은 차원의 새로운 특성 부분 공간으로 변환합니다. 데이터 압축은 머신 러닝에서 중요한 주제입니다. 현대 기술의 시대에서 생산되고 수집되는 막대한 양의 데이터를 저장하고 분석하는 데 도움이 될 것입니다.
이 장에서는 다음 주제를 다룹니다.
• 주성분 분석(Principal Component Analysis, PCA)을 사용한 비지도(unsupervised) 데이터 압축하기
• 지도(supervised) 방식의 차원 축소 기법인 선형 판별 분석(Linear Discriminant Analysis, LDA)을 이용하여 클래스 구별 능력 최대화하기
• 커널 PCA(Kernel Principal Component Analysis, KPCA)를 사용한 비선형 차원 축소하기