딥러닝 파이토치 교과서: 12.3.1 벨만 기대 방정식

이것을 다시 풀어서 설명하겠습니다. 앞 공식에서 가치 함수는 ①처럼 현재 시점에서 미래에 기대되는 보상들의 총합으로 표현합니다(행동을 어느 방향으로 진행할지 모르기 때문에 기댓값(E)으로 정의합니다). 여기에 할인율을 적용하여 풀어서 쓰면 ②와 같습니다. ②의 공식(R_t₊₁ + γR_t₊₂ + γ²R_t₊₃ + …)을 할인율을 기준으로 묶어 주면 ③처럼 R_t₊₁ + γ(R_t₊₂ + γR_t₊₃ + …)으로 정리할 수 있습니다. 이때 ③의 괄호 식을 주의 깊게 살펴봅시다. ②의 식(R_t₊₁ + γR_t₊₂ + γ²R_t₊₃ + …)은 현재 상태의 가치(G_t)이므로 ③의 식(R_t₊₂ + γR_t₊₃ + …)은 다음 상태의 가치(G_t₊₁)가 됩니다. 즉, G_t₊₁ = (R_t₊₂ + γR_t₊₃ + …)이므로 ④처럼 정리할 수 있습니다. 이제 마지막으로 ⑤ 식의 도출 과정을 살펴봅시다. ①에서 현재 상태의 가치를 v_π(s) = G_t라고 했으므로 다음 상태의 가치는 v_π(s_t₊₁) = G_t₊₁로 정리할 수 있습니다. 따라서 최종적으로 ⑤처럼 R_t₊₁ + γv_π(S_t₊₁)로 정리 가능합니다.

지금까지 현재 시점의 가치는 현재의 보상과 다음 시점의 가치로 표현할 수 있다는 것을 학습했습니다. 즉, 재귀적인 형태로서 미래의 가치들이 현재의 가치에 영향을 주고 있는 형태라고 이해하면 됩니다.

이제 MDP에서의 두 가지 가치 함수를 벨만 방정식으로 표현해 보겠습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.