데이터가 센서나 장비, 하드웨어에서 생성되었다면 장비 사양을 알아보세요. 설명서와 문서를 자세히 살피면서 데이터 생성 방식을 명확히 파악해야 합니다. 그러면 나중에 데이터를 확실히 이해한 상태로 데이터를 분석할 수 있을 겁니다. 예상 값을 알면 데이터 소스 장비에서 발생할 수 있는 오작동을 식별하는 데도 도움이 됩니다.
이제는 메타데이터를 살펴봅시다. 암시적으로나 명시적으로, 아니면 수동 입력이나 자동으로 데이터를 생성하는 어떤 비즈니스 이벤트를 발견했다고 가정해봅시다. 소스 데이터source data(원천 데이터)마다 그 데이터를 설명하는 메타데이터가 따릅니다. 예를 들어 메타데이터에는 장비 이벤트 타임스탬프나 장치 유형, 설명 용도 등의 사용자 데이터가 해당됩니다. 여러 출처에서 나온 메타데이터가 일관적인지, 이들을 통합할 수 있을지 알아보세요. 이를테면 타임스탬프 형식은 시간대에 따라 다를 수 있습니다.
이제 추적할 때입니다. 데이터 소스가 하나든 백 개든 상관없이, 그 데이터가 어떻게 파이프라인을 따라 이동하여 사용자가 접속하는 위치까지 도달할까요? 데이터 타입은 변환될 수 있으며, 시스템을 거쳐 데이터가 이동하는 데 따른 비즈니스 변환이 필요할 수도 있습니다.
만약 온보딩 과정에서 이런 정보를 받았다면 선물과도 다름없으므로 감사하는 마음을 가져야 합니다. 그리고 문서를 참조하세요. 때로는 귀중한 문서를 개발하기 위해 많은 노력을 기울이지만 이를 최대한 활용하지 못하는 경우가 많습니다.