강화 학습을 사용한 사례 중 흥미로운 사례를 하나 소개합니다. 다음 링크에서 직접 확인하세요.
https://youtu.be/gn4nRCC9TwQ?si=nUH1Z0grVL8dFEXI
영상에는 사람과 같은 모양의 인공지능 모델 더미가 걸어다니고 있습니다. 연구진은 더미한테 걷는 방법을 직접 알려 주지 않았습니다. 더미의 무게 중심이 어떨 때 넘어지는지 정보를 입력한 후 더미한테 넘어지지 말라는 명령만 했죠. 그리고 다양한 환경을 제시했을 뿐입니다.
더미는 과연 어떻게 되었을까요? 영상에서 확인할 수 있듯이 마치 사람이 걷는 것처럼 움직이기 시작했습니다. 하지만 사람이 움직이는 대로 멋지게 움직인 것은 아닙니다. 한쪽 팔을 우스꽝스럽게 들고 뛰어가거나 위태롭게 장애물을 건너는 모습도 보여 주었죠. 연구진은 이 실험으로 사람 모습을 닮은 로봇인 안드로이드도 어떻게 걷고 뛰어야 하는지 강화 학습으로 스스로 학습할 수 있음을 보여 주었습니다.