더북(TheBook)

 

icon_solution 이 장에서 다루는 내용

 

여러분은 데이터 과학을 배우거나 연습하고 있다(체크!). 또 여러분은 파일에서 데이터를 불러와 파이썬 데이터 구조에 저장한다(체크!). 좋은 일들은 한 번에 3개씩 짝을 지어 생기는 법이다. 나머지 하나는 이 장에서 다룰 데이터베이스다. 데이터베이스는 여러분이 데이터를 장기적으로 저장하는 공간이다.

 

데이터베이스는 데이터 분석 파이프라인의 중요한 구성 요소다.

 

입력 데이터는 보통 데이터베이스 테이블 형태로 제공한다. 데이터를 추가로 처리하려면 데이터베이스에서 데이터를 가져와야 한다.

데이터베이스는 고도로 최적화되고 빠른 비휘발성 저장공간을 제공하며, 이곳에 원천 데이터와 중간 결과, 최종 결과를 저장할 수 있다. 원천 데이터가 데이터베이스에 없더라도 그 처리 결과를 저장할 수 있다.

데이터베이스는 정렬, 추출, 결합 등 매우 최적화된 데이터 변환(data transformation)을 지원한다. 원천 데이터나 중간 결과를 데이터베이스에 저장했다면, 여러분은 데이터베이스를 단순한 저장공간은 물론 데이터를 집계하는 용도로도 사용할 수 있다.

 

이 장에서는 현재 가장 인기 있는 관계형 데이터베이스인 MySQL과 문서 데이터베이스(혹은 NoSQL 데이터베이스)를 설치·조정하고 데이터를 채우고 조회하는 방법을 배울 것이다. 물론 이미 설정이 끝나 데이터가 채워진 데이터베이스를 사용할 일이 더 많겠지만, 데이터베이스 엔진의 내부를 이해하는 것은 여러분을 더 나은 프로그래머로 만들 뿐만 아니라 나중에 배울 pandas에서 단단한 기반을 다져 줄 것이다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.