더북(TheBook)

7.1 지도 학습 이해하기

머신러닝은 사람의 개입이 없거나 적은 상황에서도 의사결정할 수 있는 자동화 시스템을 만드는 데이터 기반 접근 방식을 취합니다. 자동화 시스템을 만들기 위해 머신러닝은 데이터에 존재하는 반복 패턴을 도출하는 여러 알고리즘과 기법을 사용합니다. 머신러닝에서 가장 인기 있고 강력한 기법은 지도 학습입니다. 지도 학습은 특성(feature)이라는 입력 정보와 타깃 변수(target variable)라는 출력 정보를 사용합니다. 지도 학습 알고리즘은 수학적 공식을 이용해 특성과 타깃 변수가 이루는 복잡한 관계를 표현하는 모델을 훈련합니다. 그리고 훈련이 끝난 모델로 새로운 데이터에 대한 예측을 수행합니다.

주의 ≡

주어진 데이터로 학습하는 지도 학습은 경험으로 배우는 사람의 두뇌 활동과 비슷합니다. 이러한 특징으로 지도 학습 알고리즘은 강력한 성능과 지능을 가진 모델을 만드는 기반을 담당합니다.

정상 이메일과 스팸 이메일을 분류하는 모델을 지도 학습 알고리즘을 이용해 만들어 보겠습니다. 먼저 머신러닝 모델이 무엇을 스팸으로 분류해야 할지 보고 배울 수 있는 과거 데이터가 필요합니다. 텍스트 데이터의 내용을 활용한 학습 문제는 복잡한 프로세스이지만 지도 학습 알고리즘을 이용하면 원하는 결과를 얻을 수 있습니다. 이메일을 분류하는 문제를 풀 수 있는 지도 학습 알고리즘에는 결정 트리와 나이브 베이즈 등이 있습니다. 이에 대해서는 추후에 자세히 다루겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.