앞의 학습 곡선 그래프에서 볼 수 있듯이 모델 훈련에 250개의 샘플 이상을 사용할 때 훈련과 검증 데이터셋에서 잘 작동합니다. 훈련 데이터셋이 250개의 샘플보다 줄어들면 훈련 정확도가 증가하면서 훈련 정확도와 검증 정확도 사이의 차이는 넓어집니다. 이는 과대적합이 증가한다는 증거입니다.
Note ≡
역주 learning_curve 함수의 train_sizes 매개변수의 기본값은 np.linspace(0.1, 1.0, 5)입니다. cv 매개변수의 기본값은 5입니다. 회귀 문제일 경우 KFold를, 분류 문제일 경우 StratifiedKFold를 사용합니다. shuffle 매개변수를 True로 지정하면 훈련 데이터셋을 사용하기 전에 섞습니다. return_times 매개변수를 True로 지정하면 훈련과 평가에 걸린 시간을 반환합니다. 사이킷런 0.24 버전에서 모델의 fit 메서드에 필요한 매개변수와 값을 딕셔너리 형태로 지정할 수 있는 fit_params 매개변수가 추가되었습니다.