더북(TheBook)

파라미터와 하이퍼파라미터

지금 이 순간이 파라미터와 하이퍼파라미터를 이야기할 완벽한 시기입니다. 공장 기계에 달린 손잡이는 훈련 단계에서 학습 방법을 이용하여 설정하는 모델 파라미터를 의미합니다. 어떤 기계 집단(k-NN)에서 원하는 기계(3-NN 혹은 10-NN)를 고르는 것은 하이퍼파라미터를 선택하는 과정입니다. 이 차이점을 명확히 이해해야 합니다. 파라미터는 훈련 단계에서 학습 방법으로 설정되는 것이지만, 하이퍼파라미터는 학습 방법이 결정하는 것이 아닙니다.

학습 방법을 결정하고 나면, 조정할 파라미터(손잡이)와 이들이 작동하는 방식(공장 기계의 내부)은 고정됩니다. 이제 조정할 수 있는 것은 파라미터 값뿐입니다. 이러한 제약 사항은 조금 설명하기가 까다롭습니다. 컴퓨터 프로그램의 외부/내부 반복문의 구조 관점에서 보면, 모델 평가 단계 안에 모델 선택 단계가 있고 그 안에 모델 학습 단계가 위치합니다. 여기에서 하이퍼파라미터를 튜닝한다는 것은 파라미터를 조정하는 모델 학습 단계에서 한 단계 밖에 있는 모델 선택 단계로 이동한다는 것입니다. 조금 다른 관점에서는 밖으로 이동하는 것이 아니라 엔지니어처럼 장비를 들고 기계 안으로 들어간다고도 볼 수 있습니다. 자동차 엔진 표면에 달린 제어판을 조작하는 것이 아니라 엔진 내부를 새로 만드는 것입니다.

이제부터 당분간 하이퍼파라미터는 등장하지 않습니다. 하이퍼파라미터에 대해 더 알고 싶다면 11.1절을 읽어 보세요. 지금까지 이야기한 것을 표 5-1에 요약했습니다.

▼ 표 5-1 학습의 각 단계와 데이터셋

단계

명칭

사용하는 데이터셋

공장 기계의 비유

목적

내부

모델 훈련

훈련 세트

손잡이 조정

파라미터 최적화

중간

모델 선택

검증 테스트 세트

기계 선택

모델과 하이퍼파라미터 선택

외부

모델 평가

홀드아웃 테스트 세트

성능 평가

미래 성능 평가

지금까지 배운 분류 모델은 나이브 베이즈와 k-NN 모델입니다. k 값으로 어떤 값이든 설정할 수 있지만, 보통 20보다 작은 수로 설정합니다. 선택 폭이 20개의 k-NN 모델과 한 개의 나이브 베이즈 모델로 늘어났군요. 하지만 이외에도 다양한 학습 방법이 있습니다. 이 책에서만 여섯 개의 분류 모델을 소개할 것입니다. 그중 일부는 튜닝하는 방법이 무한대에 가깝습니다. k 값을 3, 10 또는 20으로 설정하는 것이 아니라 어떤 모델의 C는 0부터 무한대 값을 취할 수 있지요. 수많은 모델과 튜닝 옵션을 검증하다 보면 훈련과 검증 단계에서 최적의 결과를 얻을 수 있는 조합식을 찾아낼 수도 있습니다. 그러나 이렇게 시스템적으로 추측하다 보면 간접적으로 정답을 들여다보게 됩니다. 그렇기 때문에 따로 떼어 둔 홀드아웃 테스트 세트로 최종 평가를 하는 것입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.