더북(TheBook)

3.8 요약

이 장에서 선형 또는 비선형 문제에 적용할 수 있는 여러 종류의 머신 러닝 알고리즘을 배웠습니다. 모델 해석이 중요할 때는 결정 트리가 사용하기 좋습니다. 로지스틱 회귀는 확률적 경사 하강법을 사용한 온라인 학습뿐만 아니라 특정 이벤트 확률을 예측하는 것에도 사용할 수 있습니다.

서포트 벡터 머신은 강력한 선형 모델이지만 커널 트릭을 사용하여 비선형 문제에도 확장할 수 있습니다. 이 모델은 예측 성능을 높이기 위해 튜닝할 하이퍼파라미터가 많습니다. 대조적으로 랜덤 포레스트 같은 앙상블 모델은 매개변수 튜닝이 많이 필요하지 않고 결정 트리만큼 쉽게 과대적합되지 않습니다. 실전에서 여러 종류의 문제에 적용하기 좋습니다. KNN 분류기는 게으른 학습을 통한 다른 종류의 분류 방식을 사용합니다. 모델 훈련 없이 예측을 만들지만 예측 단계의 계산 비용이 높습니다.

적절한 학습 알고리즘을 선택하는 것보다 더 중요한 것은 훈련 데이터셋에 있는 가용한 데이터입니다. 어떤 알고리즘도 정보가 풍부하고 판단에 도움이 되는 특성 없이는 좋은 예측을 만들 수 없습니다.

다음 장에서 강력한 머신 러닝 모델을 만들기 위해 필요한 데이터 전처리, 특성 선택, 차원 축소에 관한 중요한 개념을 설명하겠습니다. 나중에 6장에서 모델 성능을 평가 비교하고 여러 알고리즘을 세밀하게 튜닝하는 방법을 배우겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.