더북(TheBook)

5.2.1 주성분 분석 vs 선형 판별 분석

PCA와 LDA 모두 데이터셋의 차원 개수를 줄일 수 있는 선형 변환 기법입니다. 전자는 비지도 학습 알고리즘이지만 후자는 지도 학습 알고리즘입니다. 따라서 LDA가 PCA보다 분류 작업에서 더 뛰어난 특성 추출 기법이라고 생각할 수 있습니다. 마르티네스(A. M. Martinez)는 PCA를 통한 전처리가 특정 이미지 인식 작업에 더 뛰어난 분류 결과를 내는 경향이 있다고 보고했습니다. 예를 들어 각 클래스에 속한 샘플이 몇 개 되지 않을 때입니다.8

Note ≡ 피셔의 LDA


LDA를 이따금 피셔의 LDA(Fisher’s LDA)라고도 부릅니다. 로널드 피셔(Ronald A. Fisher)가 1936년에 이진 분류 문제를 위한 피셔 선형 판별 공식을 처음 고안했습니다.9 피셔 선형 판별은 나중에 라다크리슈나 라오(C. Radhakrishna Rao)에 의해 클래스 공분산이 동일하고 정규 분포라는 가정하에 1948년 다중 클래스 문제로 일반화되었습니다. 이것이 지금 LDA라고 부르는 것입니다.10

Note ≡


역주 피셔의 LDA를 다중 클래스로 확장한 공식은 다음과 같습니다.

여기서 w는 선형 판별을 위한 변환 벡터이고 SBSW는 다음 절에서 설명할 클래스 간의 산포 행렬과 클래스 내 산포 행렬입니다. 분모 wTSWw를 일정하게 유지하면서 분자 wTSBw를 최대화하는 최적화 문제로 보고 라그랑주 승수법(Lagrange multiplier method)을 적용하면 다음과 같은 결과를 얻습니다.

결국 SW-1SB의 고윳값 분해 문제가 됩니다. LDA를 유도하는 자세한 과정은 텍사스 A&M 대학교의 머신 러닝 강의 슬라이드(https://bit.ly/2A6AEKh)를 참고하세요.

 

 


  8 PCA Versus LDA, A. M. Martinez and A. C. Kak, IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(2): 228-233, 2001

  9 The Use of Multiple Measurements in Taxonomic Problems, R. A. Fisher, Annals of Eugenics, 7(2): 179-188, 1936

10 The Utilization of Multiple Measurements in Problems of Biological Classification, C. R. Rao, Journal of the Royal Statistical Society. Series B (Methodological), 10(2): 159-203, 1948

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.