더북(TheBook)

 

3panda를 활용한 데이터 조사

 

데이터를 잘 파악하는 것이 딥러닝을 다루는 기술의 제1단계입니다. 그런데 데이터의 크기가 커지고 정보량이 많아지면 데이터를 불러오고 내용을 파악할 수 있는 효과적인 방법이 필요합니다. 이 때 가장 유용한 방법이 데이터를 시각화해서 눈으로 직접 확인해 보는 것입니다. 지금부터 데이터를 불러와 그래프로 표현하는 방법을 알아보겠습니다.

데이터를 다룰 때에는 데이터를 다루기 위해 만들어진 라이브러리를 사용하는 것이 좋습니다. 파이썬 데이터 관련 라이브러리 중 panda를 사용해 데이터를 불러와 보겠습니다(deep_code/02_Data_preparation.py).

 

import pandas as pd

df = pd.read_csv(’../dataset/pima-indians-diabetes.csv’,

                  names = [“pregnant”, “plasma”, “pressure”, “thickness”,

                  “insulin”, “BMI”, “pedigree”, “age”, “class”])

 

read_csv() 함수로 csv 데이터를 불러왔습니다. csv란 comma separated values file의 약자로, 즉 콤마(,)로 구분된 데이터들의 모음이란 뜻입니다. csv 파일에는 데이터를 설명하는 한 줄의 라인이 파일 맨 처음에 나옵니다. 이를 헤더(header)라고 합니다. 그런데 우리가 가진 csv 파일에는 헤더가 없습니다. 이에 names라는 함수를 통해 각 속성별 키워드를 지정해 주었습니다.

이제 불러온 데이터의 내용을 간단히 확인하고자 head() 함수를 이용하여 데이터의 첫 5줄을 불러오겠습니다.

 

print(df.head(5))

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.