하둡을 사용하여 머하웃 실행시키기
‘NameNode’의 포맷이 정해지고 사용할 준비가 되어 있다면(10장 “배치 처리로 하는 머신 러닝”을 참고하라) output.dat 파일을 하둡 파일 분산 시스템(Hadoop Distributed File System, HDFS)에 복사하라.
hadoop fs -put output.dat output.dat
앞에서 설명한 것과 같은 방법으로 머하웃을 실행하는데, 이번에는 명령줄에 -method 플래그를 추가한다.
mahout fpg -i output.dat -o patterns -k 10 -method mapreduce -s 2
머하웃은 HDFS에 저장한 데이터를 하둡의 MapReduce 메서드로 처리할 것이다. 이 메서드는 처리할 데이터가 많을 때 적합하다.
작업이 완료되면 patterns라는 디렉터리가 보이고 그 안에 파일 4개가 있을 것이다.
jason@myserver:~/mahoutdemo/patterns$ ls -l total 20 -rwxrwxrwx 1 jason jason 6098 May 1 00:06 fList drwxrwxr-x 2 jason jason 4096 May 1 00:06 fpgrowth drwxrwxr-x 2 jason jason 4096 May 1 00:06 frequentpatterns drwxrwxr-x 2 jason jason 4096 May 1 00:06 parallelcounting jason@myserver:~/mahoutdemo/patterns$
출력 파일은 머하웃용이다. 결과를 해석하려면 몇 가지 코드를 작성해야 한다.