또한, 지금까지 학습한 상태-가치 함수와 행동-가치 함수의 벨만 방정식을 다이어그램으로 표현할 수 있습니다. 이것을 백업 다이어그램이라고 하는데, 다음 그림과 같이 표현합니다.
▲ 그림 12-10 백업 다이어그램
상태-가치 함수 vπ(s)는 뒤따를 행동-가치 함수의 정책 기반 가중 평균으로 이해하면 되고, 행동-가치 함수 qπ(s,a)는 다음 상태-가치 함수에 대한 보상과 상태 전이 확률에 대한 결합 확률의 가중 평균으로 이해하면 됩니다.
지금까지 살펴본 벨만 기대 방정식을 좀 더 쉽게 이해할 수 있도록 강화 학습 과정으로 살펴보겠습니다.
1. 처음 에이전트가 접하는 상태 s나 행동 a는 임의의 값으로 설정합니다.
2. 환경과 상호 작용하면서 얻은 보상과 상태에 대한 정보들을 이용하여 어떤 상태에서 어떤 행동을 취하는 것이 좋은지(최대의 보상을 얻을 수 있는지) 판단합니다.