머신 러닝 워크북: 머하웃 실행시키기

머하웃 작업이 끝나면 결과를 파일로 저장한다. 파일 이름은 확장자 없이 ‘patterns’다. 시퀀스 파일을 읽으려면 머하웃의 시퀀스 덤퍼 함수(sequence dumper function)를 사용한다.

/your/path/to/mahout/bin/mahout seqdumper -i patterns

실제 마이닝된 결과는 다음과 같다.

Key class: class org.apache.hadoop.io.Text Value Class: class org.apache.mahout.fpm.pfpgrowth.convertors.string.TopKStringPatterns
Key: 91: Value: ([91],7), ([133, 233, 286, 91],5), ([111, 270, 91],5), ([177, 91],5), ([179, 91],5), ([133, 142, 91],4), ([133, 17, 91],4), ([125, 91],4), ([133, 142, 17, 91],3), ([125, 133, 142, 91],3), ([142, 5, 91],3)
Key: 136: Value: ([136],7), ([136, 142, 176, 253, 286],5), ([125, 136],5), ([136, 231],5), ([125, 133, 136, 142],4), ([136, 142, 17],4), ([125, 133, 136, 142, 17],3), ([136, 142, 17, 5],3), ([136, 301, 5],3), ([125, 133, 136, 142, 17, 5],2)
Key: 57: Value: ([57],8), ([125, 57],6), ([125, 301, 57],4), ([125, 142, 301, 57],3), ([125, 133, 301, 57],3), ([125, 17, 5, 57],3), ([239, 301, 57],3), ([111, 57],3)
Key: 30: Value: ([30],8), ([125, 30],6), ([133, 142, 30],5), ([17, 30],5), ([133, 142, 17, 30],4), ([125, 133, 142, 30],4), ([125, 17, 30],4), ([125, 133, 142, 17, 30],3), ([125, 17, 30, 5],3), ([111, 125, 30, 5],3)
Key: 275: Value: ([275],8), ([133, 275],5), ([125, 275],5), ([125, 142, 17, 275],4), ([125, 133, 142, 17, 275],3), ([125, 17, 275, 5],3), ([125, 142, 275, 5],3), ([125, 133, 17, 275],3), ([133, 275, 5],3)

결과는 뒤의 “결과 검사하기” 절에서 더 설명할 것이다. 이 방법은 빈도 목록 파일을 만들지 않고 패턴만 만들기 때문에 모든 것을 알려주지는 않는다. 적절한 결과를 얻으려면 하둡을 사용해야 한다. 다음 절에서 하둡 사용법을 살펴보자.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.