더북(TheBook)

UNIT 14
CSV 파일 다루기

DATA SCIENCE FOR EVERYONE icon_day

 

CSV는 정형 텍스트 파일 포맷으로 테이블형이나 테이블형에 가까운 데이터를 저장하고 옮긴다. CSV 포맷은 1972년 처음 등장해서 마이크로소프트 엑셀(Excel), Apache OpenOff ice Calc 등 여러 스프레드시트 소프트웨어의 포맷으로 선택되었다. 공공 데이터를 제공하는 미국 정부 웹 사이트인 Data.gov4는 무려 1만 2550개의 데이터셋을 CSV 포맷으로 제공한다.

CSV 파일은 변수(variable)를 표현하는 열(column)과 레코드(record)를 표현하는 행(row)으로 구성되어 있다(통계학 전공의 데이터 과학자들은 레코드를 관찰 값(observations)이라고도 칭한다). 레코드 하나에 속한 필드들은 보통 쉼표로 구분하는데, 다른 구분자인 탭(TSV, Tab-Separated Values), 콜론, 세미콜론, 버티컬 바(|)도 흔히 사용한다. 여러분 파일에는 쉼표를 사용할 것을 권장하지만, 필자의 조언을 따르지 않은 사람들이 쓴 파일에는 다른 구분자를 사용했을 수도 있다는 점을 염두에 두자.

때로는 구분자처럼 보이는 것이 실제로는 구분자가 아닐 수도 있다. 구분자로 쓰는 문자를 변수 값의 일부(…,"Hello, world",…처럼)로 사용하려면 해당 필드를 따옴표로 감싼다.




신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.