더북(TheBook)

20

데이터 엔지니어를 위한 데이터 품질

 

캐서린 자멀(Katharine Jarmul)

데이터 파이프라인을 관리하고 배포할 때 동작 여부를 어떻게 확인해야 할까요? 데이터가 테스트를 거치도록 하나요? 가동 시간을 모니터링하나요? 테스트를 하기는 하나요? 그렇다면 테스트 대상은 정확히 무엇인가요?

데이터 파이프라인은 전 세계로 가스, 석유, 물 등을 나르는 또다른 파이프라인과 크게 다르지 않습니다. 시작점과 끝점을 정의해야 하며, 정기적인 모니터링과 누출 테스트 같은 엔지니어링이 필요합니다. 그렇지만 대다수의 데이터 파이프라인과 달리 실세계의 파이프라인은 파이프라인이 나르는 물질의 품질 검사가 필요합니다. 그것도 정기적으로 말입니다.

마지막으로 데이터 파이프라인의 데이터 품질을 테스트한 것은 언제인가요? 유입 데이터나 변환 데이터의 스키마를 검증한 지는 얼마나 되었나요? 데이터 값이 적절한 범위 안에 있는지 살펴보는 상식 테스트를 한 것은 언제인가요? 데이터 품질이 낮은 경우 의미 있는 방식에 따라 플래그를 지정하고 관리하고 있는지를 어떻게 확인하고 있나요?

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.