더북(TheBook)

최소한의 옵션만 탑재한 데이터 웨어하우스 기기가 처리 능력을 비약적으로 향상시켰지만 거기에 필요한 하드웨어를 추가하려면 상당히 많은 투자를 해야 했습니다. 지금으로서는 상상할 수 없는 일입니다.

2012년 아마존이 레드시프트Redshift를 출시하면서 상황이 나아졌습니다. 레드시프트는 PostgreSQL 기반으로 구축된 컬럼 기반 데이터 웨어하우스로, 몇 분 안에 결과를 냈습니다. 동시에 사용한 만큼만 돈을 지불하면 되었기에 초기 비용을 크게 들이지 않고 사용할 수 있는 제품이었습니다.

이런 이유로 인해 과도한 비용이 들어가는 로우 기반 SQL 데이터 웨어하우스에서 레드시프트로 마이그레이션migration하는 사례가 증가했습니다. 고성능 데이터베이스에 대한 진입 장벽이 상당히 낮아졌고, 죽음을 목전에 둔 듯했던 데이터 웨어하우스가 갑자기 다시 살아났습니다.

그 다음은 추출, 로드, 변환(ELT)이 추출, 변환, 로드(ETL)를 없애버렸습니다. 두 패턴의 차이는 변환 단계가 수행되는 시점인데, 컬럼 기반 분산형 데이터베이스가 이 모든 것을 가능케 했습니다. 이제 데이터를 추출해서 데이터 웨어하우스에 로드한 다음 필요한 변환을 수행하는 데 집중하는 것이 낫습니다. ELT를 쓰면 데이터 엔지니어는 추출 및 로드 단계에 주력하고, 분석가는 SQL을 사용해서 보고 및 분석 용도로 수집된 데이터를 변환할 수 있습니다.

즉, 이 새로운 유형의 데이터베이스 덕분에 이전보다 훨씬 큰 규모의 데이터를 저장하고 쿼리할 수 있게 되었으며, 더구나 경제적이기까지 했습니다. ELT가 데이터 웨어하우스를 살린 것이죠.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.