더북(TheBook)

다음은 외부 데이터 파일을 읽기 위한 몇 가지 방법이다.

 

첫 번째 방법

로컬 디스크에 저장된 파일을 읽는 방법으로, 구글 코랩이 아닌 자신의 PC에서 사용하는 경우다.

import pandas as pd
df = pd.read_csv( 'C:/Users/Administrator/Documents/Python/data.csv' )

CSV는 콤마(,)로 데이터가 구분된 것이지만, 만일 다른 기호(예를 들어 |)로 분리돼 있다면 sep 매개변수에 따로 지정한다.

df = pd.read_csv( 'C:/Users/Administrator/Documents/Python/data.csv', sep='|' )

탭(Tab)을 사용했다면, 탭은 '\t'이므로 다음과 같이 사용한다.

ddf = pd.read_csv( 'C:/Users/Administrator/Documents/Python/data.csv', sep='\t' )

데이터 파일의 컬럼에 Date, KOSPI, PortA, PortB와 같은 컬럼명을 첫 행에 두는 것이 바람직하다. 그러나 컬럼명이 없다고 굳이 엑셀을 열어 추가할 필요는 없다. names, header 매개변수를 다음과 같이 데이터 파일을 읽어들일 때 지정할 수 있다.

df = pd.read_csv( 'C:/Users/Administrator/Documents/Python/data.csv',
     names=[ 'Date', 'KOSPI', 'PortA', 'PortB'],
     header=None,
     index_col='Date' )

names 매개변수에는 컬럼의 이름을 지정하고, header에는 첫 행을 컬럼명으로 사용할지 여부를 지정한다. Index_col에는 데이터의 색인(다른 행과 구분할 수 있는 중복되지 않는 데이터) 역할을 할 컬럼명을 지정한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.