딥러닝 파이토치 교과서: 12.3.3 다이나믹 프로그래밍

그럼 먼저 정책 평가를 살펴보겠습니다.

정책 평가

정책 이터레이션은 정책을 평가하고 발전시켜 나가는 것이 중요합니다. 앞서 언급했듯이 가치 함수는 정책이 얼마나 좋은지 판단하는 근거가 됩니다. 어떤 정책을 따라야 더 나은 보상을 받을 수 있을지 알 수 있기 때문입니다.

모든 상태에 대해 그다음 상태가 될 수 있는 행동에 대한 보상의 합을 저장하는 것이 정책 평가(policy evaluation)입니다. 즉, 주변 상태의 가치 함수와 바로 다음 상태에서 얻어지는 보상만 고려해서 현재 상태의 다음 가치 함수를 계산하는 것이라고 할 수 있습니다. 이렇게 계산한 값이 실제 가치 함수 값은 아니지만 무한히 반복하다 보면 어떤 값에 수렴하게 되고, 그 수렴된 값을 실제 가치 함수 값으로 유추할 수 있습니다.

정책 발전

정책 발전(policy improvement)으로 가장 많이 알려진 방법이 욕심쟁이 정책 발전(greedy policy improvement)입니다. 욕심쟁이 정책 발전은 에이전트가 할 수 있는 행동들의 행동-가치 함수를 비교하고 가장 큰 함수 값을 가진 행동을 취하는 것입니다. 따라서 욕심쟁이 정책 발전으로 정책을 업데이트하면 이전 가치 함수에 비해 업데이트된 정책으로 움직였을 때 받을 가치 함수는 무조건 크거나 같고, 장기적으로 최적화된 정책에 수렴할 수 있습니다. 정책 발전에서 사용되는 수식은 다음과 같습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.