2 강화 학습의 다양한 사례
강화 학습(Reinforcement learning)은 앞에서 소개한 지도 학습이나 비지도 학습의 방식과는 전혀 다릅니다. 강화 학습의 핵심 단어는 바로 ‘시행착오’입니다. 강화 학습을 위해서는 달성하고자 하는 목표와 그 목표를 달성하기 위한 보상이 필요합니다. 이 두 가지 조건이 충족되면 강화 학습 방식의 인공지능은 스스로 보상을 최대로 받으며 목표를 달성해 나갑니다.
강화 학습은 예전부터 연구되어 왔던 기술이지만, 딥러닝과 만나면서 그 잠재력이 폭발하였습니다. 강화 학습과 딥러닝의 극적인 만남을 이룬 기업이 바로 앞에서도 언급한 알파고를 만든 딥마인드입니다. 딥마인드에서는 알파고를 만들기 전에 자신들이 만든 딥러닝 기반 강화 학습 기법을 검증하기 위해 1970년대에 유행하였던 아타리 2600(Atari-2600)의 다양한 게임을 인공지능에게 학습시켰습니다. 고전 게임인 벽돌 깨기 또한 그 중에 포함되어 있었습니다.
벽돌 깨기의 게임 방법은 간단합니다. 좌우로 움직일 수 있는 막대(bar)로 공을 튕겨 위쪽에 있는 벽돌을 모두 깨는 것입니다. 벽돌을 모두 깨면 승리하고, 공을 하나라도 떨어트리면 지는 규칙이지요.
▲ 벽돌 깨기 게임