이것을 다시 풀어서 설명하겠습니다. 앞 공식에서 가치 함수는 ①처럼 현재 시점에서 미래에 기대되는 보상들의 총합으로 표현합니다(행동을 어느 방향으로 진행할지 모르기 때문에 기댓값(E)으로 정의합니다). 여기에 할인율을 적용하여 풀어서 쓰면 ②와 같습니다. ②의 공식(Rt+1 + γRt+2 + γ2Rt+3 + …)을 할인율을 기준으로 묶어 주면 ③처럼 Rt+1 + γ(Rt+2 + γRt+3 + …)으로 정리할 수 있습니다. 이때 ③의 괄호 식을 주의 깊게 살펴봅시다. ②의 식(Rt+1 + γRt+2 + γ2Rt+3 + …)은 현재 상태의 가치(Gt)이므로 ③의 식(Rt+2 + γRt+3 + …)은 다음 상태의 가치(Gt+1)가 됩니다. 즉, Gt+1 = (Rt+2 + γRt+3 + …)이므로 ④처럼 정리할 수 있습니다. 이제 마지막으로 ⑤ 식의 도출 과정을 살펴봅시다. ①에서 현재 상태의 가치를 vπ(s) = Gt라고 했으므로 다음 상태의 가치는 vπ(st+1) = Gt+1로 정리할 수 있습니다. 따라서 최종적으로 ⑤처럼 Rt+1 + γvπ(St+1)로 정리 가능합니다.
지금까지 현재 시점의 가치는 현재의 보상과 다음 시점의 가치로 표현할 수 있다는 것을 학습했습니다. 즉, 재귀적인 형태로서 미래의 가치들이 현재의 가치에 영향을 주고 있는 형태라고 이해하면 됩니다.
이제 MDP에서의 두 가지 가치 함수를 벨만 방정식으로 표현해 보겠습니다.