더북(TheBook)

5.1.2 주성분 추출 단계

이 절에서 PCA 처음 네 단계를 처리합니다.

1. 데이터를 표준화 전처리합니다.

2. 공분산 행렬을 구성합니다.

3. 공분산 행렬의 고윳값과 고유 벡터를 구합니다.

4. 고윳값을 내림차순으로 정렬하여 고유 벡터의 순위를 매깁니다.

먼저 4장에서 사용했던 Wine 데이터셋을 로드하겠습니다.

>>> import pandas as pd
df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/'
                      'machine-learning-databases/wine/wine.data',
                      header=None)

Note ≡ Wine 데이터셋 받기


Wine 데이터셋(그리고 책에서 사용하는 다른 모든 데이터셋)은 책의 깃허브에 포함되어 있습니다. 인터넷을 사용하지 않을 때나 이따금 UCI 서버(https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data)에 접속되지 않을 때 사용할 수 있습니다. 예를 들어 로컬 디렉터리에서 Wine 데이터셋을 로드하려면 첫 번째 코드를 두 번째 코드처럼 바꿉니다.

df = pd.read_csv('https://archive.ics.uci.edu/ml/'
                 'machine-learning-databases/wine/wine.data',
                 header=None)

df = pd.read_csv('your/local/path/to/wine.data',
                 header=None)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.