더북(TheBook)

1.4.1 판다스 DataFrame

판다스 DataFrame은 2차원 데이터 구조로, 엑셀 스프레드시트와 똑같다고 생각하면 된다. DataFrame은 CSV 파일을 손쉽게 가져올 수 있는 명령을 제공한다. 예를 들어 raw_data.csv 파일을 가져오려면 다음 명령을 입력한다.

import pandas as pd
df = pd.read_csv("raw_data.csv")

데이터를 DataFrame으로 가져오면 손쉽게 전처리할 수 있다. 붓꽃(Iris flower) 데이터셋을 사용해 전처리 과정을 실습해 보자. 붓꽃 데이터셋은 붓꽃 세 품종의 꽃받침(sepal)과 꽃잎(petal)의 길이 및 너비를 측정한 데이터로, 머신 러닝 실습에 널리 쓰인다. 먼저 UCI(University of California Irvine)에서 무료로 제공하는 붓꽃 데이터셋을 가져오자. 판다스는 URI의 데이터를 직접 가져올 수 있다.

import pandas as pd
# UCI 데이터베이스에서 붓꽃 데이터셋을 가져온다
URL = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
df = pd.read_csv(URL, names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'])
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.