머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 3.8 마무리

3.8 마무리

3.8.1 주의 사항: 한계점과 아직 해결되지 않은 이슈들

이 장에서 다룬 내용에는 몇 가지 한계점이 있습니다.

• 여러 모델을 하나의 데이터셋으로만 비교했습니다.

• 우리가 사용한 데이터셋은 아주 단순합니다.

• 데이터셋에 대해 어떤 전처리도 하지 않았습니다.

• 단순한 학습 -시험 분리를 사용했습니다.

• 정확도로 성능을 평가했습니다.

• 다른 이웃 수를 시험해 보지 않았습니다.

• 두 개의 단순한 모델만 비교해 보았습니다.

한계점 하나하나가 훌륭합니다! 다음에 이어질 장에서 할 이야기가 더 많다는 의미이니까요. 사실 이러한 한계점들이 왜 중요하고 어떻게 해결할지가 이 책의 중요 포인트입니다. 몇 가지 이슈는 지금도 정해진 답이 없습니다. 예를 들어 모든 데이터셋에 가장 잘 동작하는 하나의 모델이란 존재하지 않습니다. 그래서 특정한 문제를 푸는 데 좋은 모델을 찾기 위해 보통 서로 다른 모델 여러 개를 시험해 보고, 그 문제를 가장 잘 푸는 모델 하나를 선택합니다. 이것이 시험을 외워 버리는 것과 비슷하게 들리나요? 맞습니다! 다양한 모델 후보 중 하나를 선택할 때 아주 조심해야 합니다. 정확도 사용 같은 이슈들은 분류 모델의 성능을 어떻게 정량화하고 시각화하는지에 대한 긴 논의로 이어집니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.