딥마인드에서는 알파고를 만들기 전에 자신들이 제작한 딥러닝 기반 강화 학습 기법이 잘 되는지 확인하기 위해 벽돌 깨기 게임을 인공지능에게 학습시킵니다.
벽돌 깨기 게임의 방법은 간단합니다. 좌우로 움직일 수 있는 바(bar)를 사용하여 공을 튀겨 위쪽에 있는 벽돌을 모두 깨는 것입니다. 벽돌을 모두 깨면 승리하고, 공을 모두 떨어트리면 지는 규칙입니다.
처음 인공지능을 훈련시킬 때만 하더라도 인공지능이 공을 따라가지 못하여 금방 게임이 끝났습니다. 하지만 10분, 30분, 200분 이상 계속 게임하면서 시행착오를 많이 거쳤습니다. 그 결과, 학습한 인공지능이 사람은 도저히 따라갈 수 없는 속도와 정확도로 게임을 진행하게 되었습니다.
벽돌 깨기 고수들은 어떤 식으로 게임을 진행할까요? 바로 공을 벽돌 위로 올리는 것입니다. 그러면 공을 튀길 필요가 없습니다. 공이 알아서 위쪽에 있는 벽돌을 충분히 깨고 내려오기 때문이죠. 강화 학습으로 벽돌 깨기를 학습시킨 인공지능은 바로 이런 게임 고수들이 하는 것과 같은 방식을 사용합니다.
간단한 게임에서 강화 학습의 가능성을 확인한 딥마인드는 이제 바둑으로 눈을 돌립니다. 그 결과가 바로 알파고입니다. 알파고는 바둑을 학습한 인공지능이었습니다.
딥마인드는 알파고에게 프로 바둑기사의 기보를 바탕으로 바둑을 두는 방법을 알려주었습니다. 그다음에는 알파고끼리 서로 대결을 벌였습니다. 대결이 진행되면 진행될수록 어떻게 하면 이길 수 있는지 스스로 학습을 진행하였습니다.