이번 예제에서 사용할 데이터셋은 스타벅스 주가입니다. 데이터셋은 https://finance.yahoo.com/quote/sbux/history/를 이용합니다.
코드 7-41 데이터셋 가져오기
data = pd.read_csv('../chap07/data/SBUX.csv')
print(data.dtypes)
다음은 스타벅스 주가 데이터셋의 각 칼럼과 데이터 타입을 보여 줍니다.
Date object Open float64 High float64 Low float64 Close float64 Adj Close float64 Volume int64 dtype: object
데이터셋에 포함된 ‘Date’ 칼럼을 인덱스로 사용하도록 합니다. 이번 예제에서 사용할 데이터들은 숫자이기 때문에 임베딩이 필요하지 않지만 단어들로 구성된 데이터셋은 임베딩 과정을 거쳐야 합니다. 이때 날짜 칼럼은 임베딩 처리가 어려운 경우가 많은데, 날짜 칼럼을 인덱스로 처리하면 편리합니다.
코드 7-42 날짜 칼럼을 인덱스로 사용
data['date'] = pd.to_datetime(data['date'])
data.set_index('date', inplace=True) ------ ‘date’ 칼럼을 인덱스로 사용