더북(TheBook)

22

요약 통계 이상의 데이터 유효성 검증

 

에밀리 리더러(Emily Riederer)

다음 중 적절하지 않은 숫자는 무엇입니까? -1, 0, 1, NA.

상황에 따라 답이 달라질 수 있습니다. 질문의 데이터가 음수여서는 안 된다면 -1이 잘못된 값입니다. 항상 값이 있어야 한다면 NA가 잘못된 값입니다. 합계에 사용될 부호를 표현하는 것이라면 0이 미심쩍습니다. 한마디로 데이터 컨텍스트 없이는 데이터 품질도 없습니다.

데이터 품질 관리가 데이터 엔지니어링의 중요한 구성 요소라는 사실은 널리 알려져 있습니다. 상시 검증의 필요성에 대해서는 논란의 여지가 없지만 접근 방식은 매우 다양합니다. 아쉬운 점은 쉽게 자동화하고 광범위하게 확장할 수 있는 요약 통계나 기본적인 일변량 이상 탐지법에만 의존하는 경우가 너무나 많다는 것입니다. 어쨌거나 장기적으로 봤을 때 컨텍스트 없는 데이터 품질 검사는 미묘한 차이를 무시하지만, 다운스트림 사용자가 알아채지 못할 수 있는 치명적인 오류를 감지하는 데는 도움이 됩니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.