데이터 엔지니어를 위한 97가지 조언: 22 요약 통계 이상의 데이터 유효성 검증

컨텍스트를 강화한 비즈니스 규칙을 데이터 품질 검사 규칙으로 명시하면 통계적 방식으로 수행하던 데이터 유효성 검증을 도메인 지식으로 보완할 수 있습니다. 고수준 요구 사항을 그저 ‘널 아님’ 식으로 정의하는 대신 ‘전자상거래 고객의 변제 총액은 구매 총액보다 작다’와 같이 데이터의 여러 필드 사이에서 기대되는 상호 영향 관계를 정의할 수 있습니다.

이렇게 되면 특정 필드 값이 합리적인지 판단하는 것에 그치지 않고 하나 이상의 데이터셋에 있는 필드 전체의 내부 일관성을 탐색할 수 있으며, 생성된 데이터가 실제 비즈니스 의도와 일치하는지도 검증할 수 있습니다(이를테면 앞서 언급한 검사는 구매 총액을 고려한 다음 반품을 공제하는 경우에만 참으로 판명됩니다). 이러한 검사 자체는 간단한 산술 연산일 수 있지만 자율적 접근법으로는 찾을 수 없는 수준의 직관(이를테면 직관적으로 고객 수준에서 데이터를 그룹화한 후 선택한 메트릭의 총합을 비교해야 할 때)을 인코딩하고, ETL 프로세스가 중단(이를테면 결제를 여러 번 로드할 때)될 수 있는 조건을 더 잘 나타내는 질문을 던집니다.

비즈니스 규칙 데이터 검사에서는 데이터 자체에서 명확하게 드러나지 않는 데이터 구조에 사람의 지식을 활용할 수도 있습니다. 예를 들어 일관된 주제 집합에 대한 반복 측정 값(패널) 데이터로 작업하는 경우, 주제 내에서는 의도된 고유 키나 예상되는 경향성이 존재할 수 있지만, 데이터셋 전체에 걸친 경향성은 없을 것입니다. 계층적 데이터로 작업한다면 검사를 통해 적절한 ‘중첩’을 탐색할 수 있습니다.

추천 도서와 신규 콘텐츠를 먼저 받아보세요