처음에 아무런 정보 없이 게임을 시작하면 금방 끝나버릴 것입니다. 어떻게 적을 물리쳐야 하는지, 장애물은 어떻게 피하는지 그리고 슈퍼마리오가 되려면 어떻게 버섯을 먹어야 하는지 잘 모르기 때문이죠. 하지만 게임을 한 번, 두 번 하다 보면 게임 방법을 차차 터득하게 됩니다.
그렇다면 게임을 잘하는 방법을 알게 되는 과정을 살펴볼까요? 우리에게는 목표가 있습니다. 그 목표는 시간 안에 목표 지점으로 가는 것입니다. 이 목표를 이루기 위해서는 장애물에 걸려 죽지 않아야 합니다. 슈퍼마리오 게임에는 절벽 장애물이 있습니다. 이 절벽 장애물을 점프하지 않고 그냥 지나간다면 절벽으로 떨어져서 목숨을 하나 잃습니다. 목숨을 잃지 않기 위해 다음부터는 절벽이 나오면 점프를 하겠지요?
그리고 처음에는 슈퍼마리오가 될 수 있는 버섯이 어디에 있는지 전혀 알지 못하지만, 게임을 하면서 어떤 상자에 들어있을지 여러 번 시도하다보면 알게 됩니다. 처음에는 몰랐던 게임을 계속 하면서 실수도 하고, 목숨도 잃어보는 시행착오를 거쳐 게임하는 방법을 배워나가는 것이지요.
게임 방법을 배우는 과정이 비단 슈퍼마리오 게임에서만 적용되는 것은 아닙니다. 게임 영역 밖에서도 일어나는 인간의 자연스러운 학습 과정입니다. 인간이 생각하는 방법을 모방한 인공지능도 이러한 시행착오 속에서 학습하고 있습니다. 이것이 바로 ‘강화 학습’입니다.