¦ 조직 내에서 접근할 수 있는 프레임워크와 도구를 선택하라 ¦
데이터 엔지니어링이 전문적으로 보이는 것은 조직의 다른 부서에서 일반적으로 사용하지 않는 언어나 도구를 통해 파이프라인이 만들어졌기 때문이기도 합니다. 조직에서 널리 사용되는 언어(데이터 엔지니어링 분야 밖에서는 SQL을 많이 사용합니다)를 지원하는 프레임워크를 적용하는 것을 고려하세요.
¦ 로직을 파이프라인 끝으로 옮겨라 ¦
데이터 흐름 로직을 가능한 한 업스트림이나 다운스트림1에 두세요. 그렇게 하면 나머지 작업을 전처리나 후처리 단계로 나타낼 수 있으며, 데이터 엔지니어와 데이터 소비자를 효과적으로 분리하기 때문에 추후 소비자의 결과물을 넘겨받을 때를 걱정할 필요 없이 자율성을 되찾을 수 있습니다.
¦ 스테이징 테이블을 생성하고 지원하라 ¦
스테이징 테이블staging table은 데이터 파이프라인에서 작업 도중의 체크포인트나 출력으로 자주 활용됩니다. 그렇지만 이러한 데이터들은 실행되는 파이프라인에서만 사용할 임시 데이터셋으로 취급되는 경우가 많습니다. 만약 까다롭고 비용이 큰 조인이나 처리 단계를 구현해야 한다면, 결과를 스테이징하여 조직 내에서 전문 지식이 부족한 다른 사람들이 사용할 수 있도록 지원하는 것이 좋습니다.