딥마인드에서는 마침내 강화 학습 방식으로 벽돌 깨기 인공지능을 만들었습니다. 게임에서 승리하는 것을 규칙으로 여러 번의 시행착오를 거치도록 계속하여 훈련시켰습니다. 처음 인공지능을 훈련시킬 때만 하더라도 공을 따라가지 못해서 금방 게임이 끝나는 등 초보적인 실수를 자주 하였습니다. 하지만 10분, 30분, 200분 이상 계속되는 시행착오를 거치면서 학습한 인공지능은 사람은 도저히 따라갈 수 없는 속도와 정확도로 게임을 진행하게 되었죠.
벽돌 깨기 게임에서 중요한 전략 중 하나는 공을 벽돌 사이로 집어넣는 것입니다. 그러면 공을 튕기지 않더라도 공이 알아서 벽돌을 많이 깨고 내려오기 때문에 더 빨리 그리고 안전하게 게임에서 승리할 수 있습니다. 누가 이러한 전략을 알려주지 않아도 인공지능은 여러 번의 시행착오를 거쳐 스스로 가장 좋은 전략을 학습한 것입니다. 놀랍지 않나요?
하나의 알고리즘으로 49개 게임에 적용한 결과 거의 모든 경우에서 기존 알고리즘들의 성능을 뛰어 넘었으며, 29개 게임에서는 사람이 하는 수준을 넘어섰다고 합니다.