더북(TheBook)

1.5.3 파일로부터 자료 구조 생성하기

일반적으로 데이터는 DBMS로부터 불러오거나 웹에서 수집하거나 주어진 데이터 파일을 통해 얻을 수 있다. 주어진 데이터 파일은 여러 형식(엑셀 파일, SAS 파일, 텍스트 파일 등)을 가질 수 있으며 그중에서도 특정 소프트웨어에 종속하지 않는 텍스트 파일(Comma Separated Value, CSV)을 많이 사용한다. 이때 텍스트 파일 안에 표 형태의 자료가 주어지는 경우, 텍스트 파일에서 표를 나타내기 위해서 독특한 방식을 사용한다. 각 열의 값은 구분자(separator)로 구분되어야 파일을 읽는 프로그램에서 데이터를 열별로 읽을 수 있으며 값을 구분해서 인식할 수 있기 때문이다. 일반적으로 ,(Comma)나 탭(Tab)을 값에 대한 구분자로 많이 사용하며 경우에 따라서는 고정된 넓이로 구분할 수도 있다. 또한, 각 행의 값은 줄바꿈을 나타내는 개행 문자(\n), 즉 한 줄 띄는 것으로 구분되어 인식된다. 다음 표 형태 자료의 예를 살펴보자.

▲ 그림 1-29 정형 데이터의 CSV 표현

그림 1-29처럼 표 형태의 자료는 텍스트 파일로 저장할 수 있으며, 이때 값과 값 사이는 ,로 구분되고 행과 행 사이는 개행 문자로 구분된다. 데이터 과학에서 정형 데이터를 다루는 많은 경우 이러한 CSV 파일을 가장 많이 사용한다. 즉, 파이썬에서 CSV 파일을 읽고 자료 구조로 표현할 수 있다면 데이터 과학에서 가장 많이 사용되는 형태의 데이터를 사용하는 셈이다.

이렇게 CSV 파일을 읽고 자료 구조로 표현하는 것이 익숙해질 때까지 여러 번 연습해보자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.