더북(TheBook)

또한, 이 기댓값은 다음 상태인 s′의 상태-가치 함수가 되기 때문에 ② 수식의 기댓값을 가치 함수로 변환하면 다음과 같이 사용할 수 있습니다.

위 수식의 ③, ④를 상태-가치 함수의 벨만 방정식이라고 합니다.

이제 ④의 식에서 qπ(s,a)를 다시 풀어 써 보겠습니다.

그림 12-9와 같이 상태 s에서 행동 a를 했을 때의 행동에 대한 가치는 두 가지 요소로 구성되어 있는데, 상태 s에서 행동 a를 했을 때의 보상과 그다음 상태의 가치 함수입니다. 그런데 이 중 다음 상태-가치 함수(vπ(s'))는 t+1 시점에서의 가치 함수이므로 할인율과 현재(t) 상태 s에서 다음(t+1) 상태 s'로 전이될 확률도 적용해 주어야 합니다.

▲ 그림 12-9 상태 s에서 행동 a를 했을 때의 보상과 그다음 상태의 가치 함수

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.