더북(TheBook)

¦ 배치 및 실시간 시스템 ¦

배치 데이터 파이프라인에서는 보편적으로 2가지 핵심 문제를 해결해야 합니다. 하나는 계산이고, 다른 하나는 데이터 스토리지입니다. 배치 계산 처리에는 스파크가 적합하지만, 적합한 스토리지 솔루션을 찾는 것은 어려울 수 있습니다. 더 정확하게 말하자면, 사용 사례에 맞는 다양하고 최적화된 스토리지 기술을 알아보는 것이 어려울 수 있습니다.

 

 

¦ 계산 컴포넌트 ¦

계산computation이란 데이터가 처리되는 방식입니다. 계산 프레임워크가 알고리즘 및 대부분의 코드 실행을 담당하고, 빅데이터는 리소스 할당 및 코드 분산 실행, 결과 저장을 담당합니다.

 

 

¦ 스토리지 컴포넌트 ¦

스토리지storage는 데이터가 영속적으로 저장되는 방식입니다. 단순한 스토리지 요구 사항이라면 파일을 디렉터리로 덤프dump할 것입니다. 그러다 요구 사항이 조금씩 더 어려워지면 파티셔닝을 적용하기 시작합니다. 파일을 특정 이름의 디렉터리로 배치하는 것입니다. 데이터의 날짜를 디렉터리 이름의 일부로 삼는 파티셔닝 방식이 일반적입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.