더북(TheBook)

게임하다 보면 절벽 장애물을 만날 때도 있습니다. 이 절벽 장애물을 점프하지 않고 그냥 지나간다면 절벽으로 떨어져서 목숨을 하나 잃게 되죠. 목숨을 잃지 않으려면 다음부터는 절벽이 나오면 점프해야 합니다.

이렇게 게임 방법을 배우는 과정은 비단 슈퍼 마리오에서만 적용되는 것은 아닙니다. 게임 영역 밖에서도 일어나는 인간의 자연스러운 학습 과정입니다.

인간이 생각하는 방법을 모방한 인공지능에서도 이러한 시행착오 속에서의 학습을 적용하고 있습니다. 시행착오를 거쳐 학습하는 방법, 이것이 바로 강화 학습입니다.

강화 학습 사례 살펴보기

강화 학습을 위해서는 달성하려는 목표가 필요합니다. 그리고 그 목표를 이루기 위한 상이 필요합니다. 이 두 조건이 있으면 강화 학습 방식의 인공지능은 스스로 자신에게 상을 주며 목표를 이루어 갑니다.

혹시 여러분은 아타리(Atari)라는 벽돌 깨기 게임을 아시나요? 먼저 다음 영상을 참고해 보세요.

https://youtu.be/V1eYniJ0Rnk

이 강화 학습 방법은 예전부터 연구된 기술이지만 딥러닝과 만나면서 그 잠재력이 폭발하게 되었습니다. 강화 학습과 딥러닝의 극적인 만남을 이룬 기업이 바로 알파고를 만든 딥마인드(DeepMind)입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.