강화 학습
강화 학습은 학습 주체(에이전트)가 환경과 상호작용을 하며 보상을 극대화하는 행동을 학습하는 방식입니다. 주어진 상태(state)에서 최적의 행동을 선택해 목표를 달성하고, 이를 통해 경험을 쌓아 나갑니다.
예를 들어 주인이 막대기를 던지면 강아지(agent)는 처음에는 무엇을 해야 할지 몰라 무작위로 행동합니다. 하지만 막대기를 물어오는 행동(action)을 하면 주인이 보상으로 간식(reward)을 줍니다. 이러한 보상을 경험한 강아지는 간식을 얻기 위해 막대기를 물어오는 행동을 반복합니다.

▲ 그림 1-18 강화 학습