더북(TheBook)

19

재사용 및 확장 가능한 코드를 만드는 데이터 파이프라인 디자인 패턴

 

무쿨 수드(Mukul Sood)

모듈 단위로 구성되어 재사용할 수 있고 확장 가능한 데이터 파이프라인을 설계하는 일은 데이터 엔지니어링과 연관된 중요한 주제입니다. 데이터 엔지니어링에서는 데이터 소스, 수집, 유효성 검사, 프로세싱, 보안, 로깅, 모니터링 등 여러 계층에 걸친 지속적인 변화를 처리해야 하기 때문입니다. 이러한 변화는 계층 전반에 걸쳐 다양한 속도로 일어나며, 데이트 파이프라인의 추상화 수준과 설계에 따라 다양한 영향을 미칩니다.

데이터 파이프라인 계층에 대한 컨텍스트를 제공하고 구성 매핑을 시작하면 파이프라인의 핵심을 수집ingestion, 처리processing, 결과result 계층으로 요약할 수 있습니다. 그리고 각 계층을 기능 블록에 매핑되는 기능 관점에서 생각할 수 있습니다. 블록은 계층의 요구 사항에 따라 변경되며, 이는 파이프라인의 방향성 비순환 그래프Directed Acyclic Graph, DAG를 나타낼 수 있는 템플릿과 구성 관점에서 도움이 됩니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.