더북(TheBook)

정책 이터레이션(policy iteration)

정책을 더 좋게 업데이트하려면 어떻게 해야 할까요? 평가와 발전이라는 두 가지 접근 방식으로 정책을 업데이트할 수 있습니다.

현재 정책을 이용해서 가치 함수를 찾는 것을 평가(evaluate)라고 합니다. 그리고 이 가치 값과 행동에 대한 가치 값을 비교하여 더 좋은 정책을 찾아가는 과정을 발전(improve)이라고 합니다. 이 두 가지 과정을 반복하여 수행하면 정책과 가치는 특정 값으로 수렴하게 되고, 그때가 최적화된 정책과 가치라고 할 수 있습니다.

그럼 먼저 정책 평가를 살펴보겠습니다.

 

정책 평가

정책 이터레이션은 정책을 평가하고 발전시켜 나가는 것이 중요합니다. 앞서 언급했듯이 가치 함수는 정책이 얼마나 좋은지 판단하는 근거가 됩니다. 어떤 정책을 따라야 더 나은 보상을 받을 수 있을지 알 수 있기 때문입니다.

모든 상태에 대해 그다음 상태가 될 수 있는 행동에 대한 보상의 합을 저장하는 것이 정책 평가(policy evaluation)입니다. 즉, 주변 상태의 가치 함수와 바로 다음 상태에서 얻어지는 보상만 고려해서 현재 상태의 다음 가치 함수를 계산하는 것이라고 할 수 있습니다. 이렇게 계산한 값이 실제 가치 함수 값은 아니지만 무한히 반복하다 보면 어떤 값에 수렴하게 되고, 그 수렴된 값을 실제 가치 함수 값으로 유추할 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.