딥러닝 파이토치 교과서: 12.2.2 마르코프 보상 프로세스

12.2.2 마르코프 보상 프로세스

마르코프 보상 프로세스(Markov Reward Process, MRP)는 마르코프 프로세스에서 각 상태마다 좋고 나쁨(reward)이 추가된 확률 모델입니다. 다음 그림과 같이 상태 s에서 s'로 이동했을 때 이동 결과가 좋고 나쁨에 대해 보상(혹은 벌칙)을 주는 것이 마르코프 보상 프로세스입니다.

▲ 그림 12-4 마르코프 보상 프로세스

이때 각 상태의 보상 총합을 리턴(return)이라고 하며, 다음과 같이 표현합니다.

▲ 그림 12-5 리턴

하지만 상태의 정확한 가치를 구하기 위해서는 어느 시점에서 보상을 받을지가 중요합니다. 즉, ‘특정 상태에 빨리 도달해서 즉시 보상을 받을 것인지? 아니면 나중에 도달해서 보상을 받을 것인지?’에 대한 가치 판단이 필요합니다. 예를 들어 A가 B에게 돈을 빌려주면, A는 원금과 이자를 합산하여 돌려 받습니다. 이때 이자는 현재 가치와 미래 가치를 판단하게 해 주는 척도입니다.

12.2.2 마르코프 보상 프로세스

추천 도서와 신규 콘텐츠를 먼저 받아보세요