머신 러닝 워크북: 머하웃 실행시키기

하둡을 사용하여 머하웃 실행시키기

‘NameNode’의 포맷이 정해지고 사용할 준비가 되어 있다면(10장 “배치 처리로 하는 머신 러닝”을 참고하라) output.dat 파일을 하둡 파일 분산 시스템(Hadoop Distributed File System, HDFS)에 복사하라.

hadoop fs -put output.dat output.dat

앞에서 설명한 것과 같은 방법으로 머하웃을 실행하는데, 이번에는 명령줄에 -method 플래그를 추가한다.

mahout fpg -i output.dat -o patterns -k 10 -method mapreduce -s 2

머하웃은 HDFS에 저장한 데이터를 하둡의 MapReduce 메서드로 처리할 것이다. 이 메서드는 처리할 데이터가 많을 때 적합하다.

작업이 완료되면 patterns라는 디렉터리가 보이고 그 안에 파일 4개가 있을 것이다.

jason@myserver:~/mahoutdemo/patterns$ ls -l
total 20
-rwxrwxrwx 1 jason jason 6098 May 1 00:06 fList
drwxrwxr-x 2 jason jason 4096 May 1 00:06 fpgrowth
drwxrwxr-x 2 jason jason 4096 May 1 00:06 frequentpatterns
drwxrwxr-x 2 jason jason 4096 May 1 00:06 parallelcounting
jason@myserver:~/mahoutdemo/patterns$

출력 파일은 머하웃용이다. 결과를 해석하려면 몇 가지 코드를 작성해야 한다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.