이 장에서 다루는 내용
여러분은 데이터 과학을 배우거나 연습하고 있다(체크!). 또 여러분은 파일에서 데이터를 불러와 파이썬 데이터 구조에 저장한다(체크!). 좋은 일들은 한 번에 3개씩 짝을 지어 생기는 법이다. 나머지 하나는 이 장에서 다룰 데이터베이스다. 데이터베이스는 여러분이 데이터를 장기적으로 저장하는 공간이다.
데이터베이스는 데이터 분석 파이프라인의 중요한 구성 요소다.
• 입력 데이터는 보통 데이터베이스 테이블 형태로 제공한다. 데이터를 추가로 처리하려면 데이터베이스에서 데이터를 가져와야 한다.
• 데이터베이스는 고도로 최적화되고 빠른 비휘발성 저장공간을 제공하며, 이곳에 원천 데이터와 중간 결과, 최종 결과를 저장할 수 있다. 원천 데이터가 데이터베이스에 없더라도 그 처리 결과를 저장할 수 있다.
• 데이터베이스는 정렬, 추출, 결합 등 매우 최적화된 데이터 변환(data transformation)을 지원한다. 원천 데이터나 중간 결과를 데이터베이스에 저장했다면, 여러분은 데이터베이스를 단순한 저장공간은 물론 데이터를 집계하는 용도로도 사용할 수 있다.
이 장에서는 현재 가장 인기 있는 관계형 데이터베이스인 MySQL과 문서 데이터베이스(혹은 NoSQL 데이터베이스)를 설치·조정하고 데이터를 채우고 조회하는 방법을 배울 것이다. 물론 이미 설정이 끝나 데이터가 채워진 데이터베이스를 사용할 일이 더 많겠지만, 데이터베이스 엔진의 내부를 이해하는 것은 여러분을 더 나은 프로그래머로 만들 뿐만 아니라 나중에 배울 pandas에서 단단한 기반을 다져 줄 것이다.