딥러닝 파이토치 교과서: 12.2.2 마르코프 보상 프로세스

즉, 가치 함수는 현재 시점에서 미래의 모든 기대되는 보상을 표현하는 미래 가치라고 할 수 있습니다. 따라서 강화 학습의 핵심은 가치 함수를 최대한 정확하게 찾는 것입니다. 다시 말해 미래 가치가 가장 클 것으로 기대되는 결정을 하고 행동하는 것이 강화 학습의 목표라고 할 수 있습니다.

그러면 병원을 방문한 어느 하루에 대한 마르코프 프로세스에 보상을 추가해 보겠습니다.

▲ 그림 12-6 마르코프 프로세스 사례에 할인율 0 반영

예제에서 γ=0일 때 ‘웹 서핑’에 대한 가치(value) 값을 -2.4로, ‘진찰’에 대한 가치 값을 1.2로 가정하면 ‘독서’와 ‘대기’에 대한 가치는 다음과 같이 구할 수 있습니다.

“독서” = 10 + 0×[(-2.4×0.3) + (0×0.7)] = 10

“대기” = -2 + 0×[(-2.4×0.1) + (10×0.1) + (1.2×0.8)] = -2

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.