딥러닝 텐서플로 교과서: 12.1 강화 학습이란

그림을 이해하기 위한 용어를 정리해 보겠습니다.

상태는 에이전트가 관찰 가능한 상태의 집합으로, ‘자신의 상황에 대한 관찰’입니다. 에이전트의 상태는 시간에 따라 달라집니다. 에이전트가 가질 수 있는 모든 상태의 집합을 S라고 할 때, 시간 t에서 에이전트의 상태 s는 다음과 같이 나타냅니다.

S_t = s {s ∈ S}

행동이란 에이전트가 상태 S_t에서 가능한 행동입니다. 전체 행동의 집합을 A라고 할 때, 에이전트가 시간 t에서 특정 행동 a를 하는 것을 다음과 같이 나타냅니다.

A_t = a {a ∈ A}

강화 학습의 문제들은 마르코프 결정 과정으로 표현하고, 이 마르코프 결정 과정은 모두 마르코프 프로세스에 기반합니다. 따라서 마르코프 프로세스부터 차근차근 학습해 보겠습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.