그림을 이해하기 위한 용어를 정리해 보겠습니다.
상태는 에이전트가 관찰 가능한 상태의 집합으로, ‘자신의 상황에 대한 관찰’입니다. 에이전트의 상태는 시간에 따라 달라집니다. 에이전트가 가질 수 있는 모든 상태의 집합을 S라고 할 때, 시간 t에서 에이전트의 상태 s는 다음과 같이 나타냅니다.
St = s {s ∈ S}
행동이란 에이전트가 상태 St에서 가능한 행동입니다. 전체 행동의 집합을 A라고 할 때, 에이전트가 시간 t에서 특정 행동 a를 하는 것을 다음과 같이 나타냅니다.
At = a {a ∈ A}
강화 학습의 문제들은 마르코프 결정 과정으로 표현하고, 이 마르코프 결정 과정은 모두 마르코프 프로세스에 기반합니다. 따라서 마르코프 프로세스부터 차근차근 학습해 보겠습니다.