딥러닝 파이토치 교과서: 12.2.3 마르코프 결정 과정

상태-가치 함수

MDP에서 상태-가치 함수(v_π(s))는 MRP의 가치 함수와 마찬가지로 상태 s에서 얻을 수 있는 리턴의 기댓값을 의미합니다. 하지만 MRP와 차이는 주어진 정책(π)에 따라 행동을 결정하고 다음 상태로 이동하기 때문에 MDP에서 상태-가치 함수는 다음 수식을 사용합니다.

여기에서 ①은 t+1 시점에 받는 보상, 즉, 즉각적 보상이며 ②는 미래의 보상에 할인율이 곱해진 것입니다. 주목해야 할 것은 현재 시점(t)의 상태-가치 함수가 바로 다음 시점(t+1)의 상태-가치 함수로 표현된다는 것입니다. 이 수식에 대한 도출은 12.3.1절에서 알아보겠습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.