딥러닝 파이토치 교과서: 12.3.3 다이나믹 프로그래밍

가치 이터레이션

가치 이터레이션(value iteration)은 최적의 정책을 가정하고 벨만 최적 방정식을 이용하여 순차적으로 행동을 결정합니다. 가치 이터레이션은 정책 이터레이션과 달리 따로 정책 발전이 필요하지 않습니다. 벨만 최적 방정식으로 문제를 푸는 이 방법은 한 번의 정책 평가 과정을 거치면 최적의 가치 함수와 최적의 정책이 구해지면서 MDP 문제를 풀 수 있기 때문입니다. 가치 이터레이션에서 사용하는 수식은 다음과 같습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.