데이터 레이크 개념은 2011년에 처음으로 도입되었습니다. 방대한 양의 데이터를 저장할 때 구조를 정의할 필요 없이(쓰기 시점 스키마), 쿼리할 때 저장할 수 있다(읽기 시점 스키마)는 것은 대단히 큰 이점입니다. 그렇지만 이러한 접근 방식을 위해서는 데이터 디스커버리와 거버넌스 측면에서 비용이 발생하며, 데이터 분석이나 데이터로 작업하는 분석 엔지니어가 다루는 복잡성도 올라갑니다.
구조화된 대규모 데이터세트를 저장하고 쿼리하는 비용이 낮아지고 성능이 급증하면서 분석 작업에 활용되는 데이터 레이크의 단점이 드러났습니다. 그렇지만 여전히 분석 인프라에 데이터 레이크의 자리는 남아 있습니다. 그리고 일관되게 구조화되지 않은 데이터나 가장 견고한 데이터 웨어하우스조차 버티기 힘든 규모의 데이터를 저장하려는 수요도 여전합니다. 그래서인지 대다수의 데이터 팀에게 데이터 레이크는 데이터 웨어하우스의 대체재라기보다는 보완재와도 같습니다.
데이터 웨어하우스는 가까운 시일 내에는 사라지지 않을 것입니다. 스노우플레이크가 지속적으로 개발자와 투자자 모두의 기대를 압도하고 있으니, 머지않은 미래에 데이터 웨어하우스에 혁신의 물결이 일 것이라고 예상합니다.
개발된 적 없는 데이터 웨어하우스에 투자하거나, 레거시를 최신 플랫폼으로 이전하거나, 데이터 웨어하우스 지식을 갖춘 데이터 엔지니어를 고용하는 것을 염려하지 마세요. 현재의 구축과 미래의 투자를 위한 현명한 선택일 테니까요.