최적의 상태-가치 함수(optimal state-value function)
최적의 상태-가치 함수(v*(s))는 주어진 모든 정책에 대한 상태-가치 함수의 최댓값이며, 수식은 다음과 같습니다.
최적의 행동-가치 함수(optimal action-value function)
최적의 상태-가치 함수와 유사하게 최적의 행동-가치 함수(q*(s,a))는 주어진 모든 정책에 대해 행동-가치 함수의 최댓값이며, 다음 수식을 사용합니다.
행동-가치 함수는 현재 상태 s에서 정책 π를 따라 행동 a를 했을 때의 가치를 의미합니다.
▲ 그림 12-11 행동-가치 함수