더북(TheBook)

16

데이터 엔지니어링은 스파크와 같지 않다

 

제시 앤더슨(Jesse Anderson)

어떤 사람들은 아파치 스파크만 있으면 데이터 파이프라인1을 만들 수 있다고 주장합니다. 하지만 실제로 데이터 파이프라인을 생성하기 위해서는 다음 3가지의 일반적인 기술 유형을 구현하는 구성 요소가 필요합니다.

 

계산

스토리지

메시징

 

스파크만 있으면 데이터 파이프라인을 만들 수 있다는 오해를 바로잡아야 빅데이터 프로젝트를 성공시키거나 빅데이터를 학습할 수 있습니다. 스파크는 데이터 파이프라인을 만드는 데 필요한 대규모 빅데이터 생태계의 일부일 뿐입니다. 간단히 다음과 같이 정리할 수 있습니다.

 

데이터 엔지니어링 = 계산 + 스토리지 + 메시징 + 코드 + 아키텍처 + 도메인 지식 + 사용 사례

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.