에이전트가 환경의 현재 상태를 관찰하고 카트를 오른쪽 혹은 왼쪽으로 이동하면 환경은 새로운 상태로 전이되고 행동(왼쪽 혹은 오른쪽 이동)의 결과로 보상을 받게 됩니다. 보상은 +1이 주어집니다. 막대기가 중심에서 너무 멀리 떨어지거나 카트가 중심에서 멀어지면 게임은 종료됩니다. 즉, 게임이 오래 지속될수록 더 많은 보상을 받을 수 있습니다.
CartPole에 대한 상태는 다음 표와 같습니다.
▼ 표 12-2 CartPole에 대한 상태
위치 |
왼쪽 |
오른쪽 |
|
속도 |
|
가속도 |
신경망은 이전의 화면(screen)과 현재 화면(screen)의 차이를 통해 위치, 속도 등을 계산합니다.
다음 표는 에이전트가 취할 수 있는 행동입니다.
▼ 표 12-3 에이전트 행동
왼쪽 |
오른쪽 |
또한, 각 행동마다 +1을 보상으로 받습니다.