딥러닝 텐서플로 교과서: 12.3.2 벨만 최적 방정식

이때 행동-가치 함수(큐-함수라고도 불림)에 대한 최적의 가치 함수를 구할 수 있다면 주어진 상태에서 q 값이 가장 높은 행동을 선택할 수 있게 됩니다. 따라서 최적화된 정책을 구할 수 있습니다. 이렇게 선택된 최적화된 정책은 다음 수식으로 정리할 수 있습니다.

즉, 행동-가치 함수를 최대로 하는 행동만 취하겠다는 의미입니다. 이렇듯 q_*(s,a)를 찾게 되면 최적화된 정책을 구할 수 있습니다.

추천 도서와 신규 콘텐츠를 먼저 받아보세요