모두의 인공지능 with 파이썬(개정 2판): 2.3 강화 학습

처음 인공지능을 훈련시킬 때만 하더라도 인공지능이 공을 따라가지 못해 금방 게임이 끝났습니다. 하지만 10분, 30분, 200분 이상 계속 게임하면서 시행착오를 많이 거쳤습니다. 그 결과 학습한 인공지능은 사람이 도저히 따라갈 수 없는 속도와 정확도로 게임을 진행하게 되었습니다.

벽돌 깨기 고수들은 어떤 식으로 게임을 진행할까요? 바로 공을 벽돌 위로 올리는 것입니다. 그러면 공을 튀길 필요가 없습니다. 공이 알아서 위쪽에 있는 벽돌을 충분히 깨고 내려오기 때문이죠. 강화 학습으로 벽돌 깨기를 학습시킨 인공지능은 바로 이러한 게임 고수들이 하는 것과 같은 방법을 사용합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.