머신 러닝 교과서: 파이토치 편: 5.1.5 사이킷런의 주성분 분석

Note ≡

역주 n_components에 (0, 1) 사이 실수를 입력하면 설명된 분산의 비율을 나타내며 자동으로 이 비율을 달성하기 위해 필요한 주성분 개수를 선택합니다.

>>> pca = PCA(n_components=0.95)
>>> print('주성분 개수:', pca.n_components_)
주성분 개수: 10
>>> print('설명된 분산 비율:', np.sum(pca.explained_variance_ratio_))
설명된 분산 비율: 0.9662714406558742

n_components='mle'로 지정하면 토마스 민카(Thomas Minka)가 제안한 차원 선택 방식을 사용합니다(Minka, T. P. “Automatic choice of dimensionality for PCA”, In NIPS, pp. 598- 604).

>>> pca = PCA(n_components='mle')
>>> print('주성분 개수:', pca.n_components_)
주성분 개수: 9
>>> print('설명된 분산 비율:', np.sum(pca.explained_variance_ratio_))
설명된 분산 비율: 0.9499753029186232

PCA의 가장 큰 제약 사항 중 하나는 배치로만 실행되기 때문에 대용량 데이터셋을 처리하려면 많은 메모리가 필요하다는 점입니다. IncrementalPCA를 사용하면 데이터셋의 일부를 사용하여 반복적으로 훈련할 수 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.