3. 이때 최적의 행동을 판단하는 수단이 상태-가치 함수와 행동-가치 함수이고, 이것을 벨만 기대 방정식을 이용하여 업데이트하면서 점점 높은 보상을 얻을 수 있는 상태와 행동을 학습합니다.
4. 2~3의 과정 속에서 최대 보상을 갖는 행동들을 선택하도록 최적화된 정책을 찾습니다.
따라서 벨만 기대 방정식이 갖는 의미는 미래의 가치 함수 값들을 이용하여 초기화된 임의의 값들을 업데이트하면서 최적의 가치 함수로 다가가는 것입니다. 즉, 강화 학습은 가치 함수 초깃값(0 혹은 랜덤한 숫자들)을 2~3의 과정을 반복하며 얻은 정보들로 업데이트하여 최적의 값을 얻는 것입니다. 그리고 이렇게 반복적으로 얻은 값이 가장 클 때 이를 벨만 최적 방정식이라고 합니다.
이 벨만 최적 방정식을 알아보겠습니다.