더북(TheBook)

가치 이터레이션

가치 이터레이션(value iteration)은 최적의 정책을 가정하고 벨만 최적 방정식을 이용하여 순차적으로 행동을 결정합니다. 가치 이터레이션은 정책 이터레이션과 달리 따로 정책 발전이 필요하지 않습니다. 벨만 최적 방정식으로 문제를 푸는 이 방법은 한 번의 정책 평가 과정을 거치면 최적의 가치 함수와 최적의 정책이 구해지면서 MDP 문제를 풀 수 있기 때문입니다. 가치 이터레이션에서 사용하는 수식은 다음과 같습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.