더북(TheBook)

이런 이름은 사용자에게 좋은 인터페이스가 되어줄 뿐만 아니라, 데이터 요구 사항을 분명하게 만들어줍니다. 데이터 관리 작업을 자동화하는 데 직접적으로 도움이 되는 중요한 수단이기도 합니다. 스텁에서 변수 정의를 재구성(공유 승차 운전자의 유일 식별자)하고, 사용자가 특정한 개념(모든 타임스탬프, 여행 출발지에서 할 수 있는 모든 일)에 대해 모든 테이블을 쉽게 찾아볼 수 있게 하면 메타데이터 관리 및 데이터 발견data discovery 작업을 부분적으로 자동화할 수 있습니다. 마찬가지로 그레이트 엑스펙테이션스Great Expectations 같은 도구로 최상위 레벨의 스텁에서 사용자에게 약속된 실행 계약을 자동화된 데이터 유효성 검사로 원활히 변환시킬 수 있습니다. 자동화된 유효성 검사에는 ‘DT로 시작되는 모든 것은 날짜로 변환할 수 있다거나, AMT 필드는 반드시 소수가 아니어야 한다거나, IND 변수는 널이 아니어야 한다’ 등이 있습니다. 마지막으로 그런 식으로 변수에 이름을 붙이면 차후 데이터 멍잉munging 과정에서 변수의 성격을 활용하는 데 도움이 됩니다(VAL 변수를 요약하는 것은 의미가 없습니다).

물론 데이터 품질과 발견 가능성, 커뮤니케이션을 모두 해결하는 하나의 만능 솔루션은 없습니다. 그렇지만 컬럼 이름을 통해 데이터가 지켜야 하는 계약을 나타내면 사용자와 워크플로 도구로 의사소통을 하는 데 유용합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.