더북(TheBook)

6.1.3.1 예제 데이터 내려받기

우리는 거래 주문 50만 건을 기록한 예제 파일을 입력 데이터로 사용한다. 파일의 데이터는 무작위로 생성했다. 각 줄에 포함된 요소들은 다음과 같다(요소는 쉼표로 구분된다).

주문 시각: yyyy-MM-dd HH:mm:ss 형식

주문 ID: 순차적으로 증가시킨 정수

고객 ID: 1에서 100 사이 무작위 정수

주식 종목 코드: 80개의 주식 종목 코드 목록에서 무작위로 선택한 값

주문 수량: 1에서 1000 사이 무작위 정수

매매 가격: 1에서 100 사이 무작위 정수

주문 유형: 매수 주문(B) 또는 매도 주문(S)

책의 깃허브 저장소에서 예제 파일을 담은 아카이브를 찾을 수 있다. 터미널을 하나 더 열고 깃허브 저장소를 복제한 위치(가상 머신에서는 /home/spark 폴더)로 이동한 후, 예제 파일의 압축을 해제하자.

$ cd first-edition/ch06
$ tar xvfz orders.tar.gz

 

이제 스트리밍 애플리케이션에 보낼 데이터를 준비했다.

StreamingContexttextFileStream 메서드를 사용해 파일의 텍스트 데이터를 스트리밍으로 직접 전달할 수 있다. textFileStream 메서드는 지정된 디렉터리를 모니터링하고, 디렉터리에 새로 생성된 파일을 개별적으로 읽어 들인다. 메서드에는 HDFS, 아마존 S3, GlusterFS, 로컬 디렉터리 등 하둡과 호환되는 모든 유형의 디렉터리를 지정할 수 있고, 다른 인수는 없다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.