분산 비율(variance ratio)을 이용해 PCA의 결과를 이해할 수 있습니다.
[in :]
print(pca.explained_variance_ratio_)
[out:]
[0.92461872 0.05306648 0.01710261 0.00521218]
분산 비율은 다음과 같이 해석할 수 있습니다.
• PC1으로 네 가지 원본 특성을 대체하면, 원본 특성이 가진 분산의 92.4%를 PC1으로도 보존할 수 있습니다. 원본 분산이 100% 유지되는 것이 아니기 때문에 PC1을 통한 데이터는 원본 데이터의 근삿값이 됩니다.
• PC1과 PC2를 이용해 원본 특성을 대체하면, 원본 분산을 5.3%만큼 더 보존할 수 있습니다.
• PC1, PC2, PC3를 이용하면 추가로 1.7%의 원본 분산을 보존할 수 있습니다.
• PC1, PC2, PC3, PC4를 모두 이용하면 원본 분산을 100% 보존할 수 있습니다(92.4 + 5.3 + 1.7 + 0.5). 그러나 4개의 원본 특성을 4개의 주성분으로 대체하는 것은 아무런 의미가 없습니다. 차원 수는 조금도 줄어들지 않았으니까요.