<슈퍼 마리오> 게임을 했다면 잘 알겠지만 상자를 두드리면 버섯이 나옵니다. 그 버섯을 먹으면 몸집이 아주 커지죠. 적에 닿아도 죽지 않는 말 그대로 ‘슈퍼’ 마리오입니다. 게임을 계속 하다 보면 이렇게 슈퍼 마리오가 되는 방법 또한 자연스럽게 익힙니다. 처음에는 슈퍼 마리오가 될 수 있는 버섯이 어디에 있는지 전혀 알지 못하죠? 하지만 게임을 하다가 어떤 상자에 들어 있을지 계속 시도하고 여러 번 죽기도 하는 시행착오 속에서 게임하는 방법을 배워 나갑니다.
게임하다 보면 절벽 장애물을 만날 때도 있습니다. 이 절벽 장애물을 점프하지 않고 그냥 지나간다면 절벽으로 떨어져서 목숨을 하나 잃게 되죠. 목숨을 잃지 않으려면 다음부터는 절벽이 나오면 점프해야 합니다.
이렇게 게임 방법을 배우는 과정은 비단 <슈퍼 마리오>에만 적용되는 것은 아닙니다. 게임 영역 밖에서도 일어나는 인간의 자연스러운 학습 과정입니다.
인간이 생각하는 방식을 모방한 인공지능에서도 이러한 시행착오 속에서 학습을 적용합니다. 시행착오를 거쳐 학습하는 방식, 이것이 바로 강화 학습입니다.