더북(TheBook)

훈련 과정에서는 전처리된 데이터를 사용해 모델을 훈련시키는 과정입니다. 전처리된 데이터는 훈련 데이터셋(전체 데이터셋의 80%)과 테스트 데이터셋(전체 데이터셋의 20%)으로 나눕니다. 모델을 학습하는 데 훈련 데이터셋을 사용하고, 모델을 평가하는 데 테스트 데이터셋을 사용합니다. 경우에 따라서는 훈련 데이터셋 60%, 검증 데이터셋 20%, 테스트 데이터셋 20%로 나눌 수도 있습니다. 검증 데이터셋은 모델의 성능을 튜닝하고 과적합을 방지하기 위해 활용됩니다.

훈련 과정에서 모델에 훈련 데이터를 반복해 학습시키고 가중치 등 파라미터를 최적화합니다. 이 과정에서 모델의 성능이 향상됩니다.

▲ 그림 2-19 훈련 데이터와 테스트 데이터 구분

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.