더북(TheBook)

하둡을 사용하여 머하웃 실행시키기

‘NameNode’의 포맷이 정해지고 사용할 준비가 되어 있다면(10장 “배치 처리로 하는 머신 러닝”을 참고하라) output.dat 파일을 하둡 파일 분산 시스템(Hadoop Distributed File System, HDFS)에 복사하라.


hadoop fs -put output.dat output.dat

 

앞에서 설명한 것과 같은 방법으로 머하웃을 실행하는데, 이번에는 명령줄에 -method 플래그를 추가한다.


mahout fpg -i output.dat -o patterns -k 10 -method mapreduce -s 2

 

머하웃은 HDFS에 저장한 데이터를 하둡의 MapReduce 메서드로 처리할 것이다. 이 메서드는 처리할 데이터가 많을 때 적합하다.

작업이 완료되면 patterns라는 디렉터리가 보이고 그 안에 파일 4개가 있을 것이다.


jason@myserver:~/mahoutdemo/patterns$ ls -l
total 20
-rwxrwxrwx 1 jason jason 6098 May 1 00:06 fList
drwxrwxr-x 2 jason jason 4096 May 1 00:06 fpgrowth
drwxrwxr-x 2 jason jason 4096 May 1 00:06 frequentpatterns
drwxrwxr-x 2 jason jason 4096 May 1 00:06 parallelcounting
jason@myserver:~/mahoutdemo/patterns$

 

출력 파일은 머하웃용이다. 결과를 해석하려면 몇 가지 코드를 작성해야 한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.