데이터 파이프라인은 일반적으로 비즈니스 혹은 알고리즘 로직(측정치 계산, 모델 훈련, 특징화 등) 및 데이터 흐름 로직(복잡한 조인, 데이터 랭글링, 세션화 등)으로 나뉩니다. 데이터 엔지니어는 데이터 흐름 로직 구현이 전문이지만, 작업을 요청하는 팀이 요구하는 등 필요에 따라 다른 로직을 구현해야 할 때가 많으며, 이러한 요구 사항을 자체적으로 조율할 수도 없습니다.
이런 상황은 보통 데이터 흐름과 알고리즘 로직이 뒤섞이고 파이프라인 전체에 밀접히 연관되어 구현되기 때문에 발생합니다. 이럴 때는 데이터 흐름 로직을 파이프라인 안의 다른 로직과 분리할 방법을 찾아야 합니다. 도움이 될 만한 몇 가지 전략을 소개합니다.
¦ ETL 프레임워크에 재사용 가능한 패턴을 구현하라 ¦
일반적인 패턴을 템플릿으로 만들지 말고 ETL 프레임워크 내부의 함수로 구현합니다. 이를 통해 코드 왜곡과 관리 부담을 최소화할 수 있고, 데이터 엔지니어링 팀 이외의 기여자가 데이터 파이프라인에 더 쉽게 접근하게 할 수 있습니다.