딥러닝 텐서플로 교과서: 12.3.2 벨만 최적 방정식

최적의 상태-가치 함수(optimal state-value function)

최적의 상태-가치 함수(v_*(s))는 주어진 모든 정책에 대한 상태-가치 함수의 최댓값이며, 수식은 다음과 같습니다.

최적의 행동-가치 함수(optimal action-value function)

최적의 상태-가치 함수와 유사하게 최적의 행동-가치 함수(q_*(s,a))는 주어진 모든 정책에 대해 행동-가치 함수의 최댓값이며, 다음 수식을 사용합니다.

행동-가치 함수는 현재 상태 s에서 정책 π를 따라 행동 a를 했을 때의 가치를 의미합니다.

▲ 그림 12-11 행동-가치 함수

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.