대규모 데이터 파이프라인의 성장세와 이용량을 고려하면 데이터 검증과 테스트, 품질 검사가 비즈니스 요구에 미치는 영향이 그 어느 때보다 큽니다. 데이터를 아무리 많이 수집해도 품질을 제대로 관리하지 못해서 데이터 과학이나 머신 러닝, 비즈니스 인텔리전스 등의 작업에 쓸 수 없다면 하루에 1테라바이트를 수집한들 아무 쓸모가 없습니다.
데이터 엔지니어도 다른 파이프라인 엔지니어처럼 파이프라인에 흐르는 대상의 품질에 관심을 가져야 합니다. 데이터 엔지니어는 데이터 과학 팀과 협력하거나 표준 테스트를 구현해야 합니다. 스키마 검증이나 널 검사처럼 간단한 것일 수도 있고, 이상적으로는 예상 값 범위나 개인 정보 데이터 및 민감한 데이터 노출을 테스트하거나 통계 테스트를 위해 시간 경과에 따른 샘플 데이터를 테스트할 수도 있습니다(즉, 데이터 전체가 가져야 하는 분포나 기타 속성 테스트를 뜻합니다).
멋진 점은 이런 문제에 데이터 지식을 적용할 수 있다는 점입니다. 오늘 데이터 파이프라인에 극단 값이나 이상 값, 아웃라이어outlier가 몇 개나 있을지 알고 있나요? 아마 모를 겁니다. 그렇지만 알아볼 수는 있을까요? 당연히 가능합니다. 파이프라인이나 프로세싱 과정에서 발견되는 오류 및 품질 문제의 유형을 추적하고 모니터링하고 추론하는 일은 그 자체로 의미 있는 데이터 과학 작업입니다.