마지막으로 강화 학습은 머신 러닝의 꽃이라고 부를 만큼 어렵고 복잡합니다. 분류할 수 있는 데이터가 있는 것도 아니고 데이터가 있다고 해도 정답이 없기 때문입니다. 강화 학습은 자신의 행동에 대한 보상을 받으며 학습을 진행합니다. 게임이 대표적인 사례입니다. 혹시 <쿠키런>이라는 국내 게임을 알고 있나요? 쿠키가 에이전트(agent)이며(즉, 게이머가 에이전트가 되겠죠?) 게임 배경이 환경(environment)입니다. 이때 에이전트가 변화하는 환경에 따라 다른 행동(action)을 취하게 됩니다. 동전이나 젤리를 취득하는 등 행동에 따라 보상(몸집이 커짐)을 얻습니다. 강화 학습은 이러한 보상이 커지는 행동은 자주 하도록 하고, 줄어드는 행동은 덜 하도록 하여 학습을 진행합니다. 자세한 내용은 ‘12장 강화 학습’에서 설명합니다.
▲ 그림 1-9 강화 학습(<쿠키런> 게임)(출처: https://www.devsisters.com/ko/product/games/)