더북(TheBook)

5.3.3 새로운 데이터 포인트 투영

앞선 커널 PCA의 두 예제에서 하나의 데이터셋을 새로운 특성에 투영했습니다. 실전 애플리케이션에서는 변환해야 할 데이터셋이 하나 이상입니다. 예를 들어 훈련 데이터셋과 테스트 데이터셋입니다. 모델을 구축하고 평가한 후 수집한 새로운 샘플도 이에 해당합니다. 이 절에서 훈련 데이터셋에 포함되지 않았던 새로운 데이터 포인트를 투영하는 방법을 배우겠습니다.

이 장 서두에서 보았던 기본 PCA 방법을 떠올려 보면 변환 행렬과 입력 샘플 사이의 점곱을 계산해서 데이터를 투영했습니다. 변환 행렬의 열은 공분산 행렬에서 얻은 최상위 k개의 고유 벡터(v)입니다.

이제 어떻게 커널 PCA 개념을 적용할 수 있는지가 관건입니다. 커널 PCA 이면의 아이디어로 돌아가 보면 중심을 맞춘 커널 행렬(공분산 행렬이 아님)의 고유 벡터(a)를 구했습니다. 즉, 샘플은 이미 주성분 축 v에 투영되어 있습니다. 새로운 샘플 x'를 주성분 축에 투영하려면 다음을 계산해야 합니다.

다행히 커널 트릭을 사용하여 명시적으로 투영 를 계산할 필요가 없습니다. 기본 PCA와 다르게 커널 PCA는 메모리 기반 방법입니다. 즉, 새로운 샘플을 투영하기 위해 매번 원본 훈련 데이터셋을 재사용해야 합니다. 훈련 데이터셋에 있는 i번째 새로운 샘플과 새로운 샘플 x' 사이 RBF 커널(유사도)을 계산해야 합니다.

여기서 커널 행렬 K의 고유 벡터 a와 고윳값 λ는 다음 식을 만족합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.