딥러닝 파이토치 교과서: 12.4.2 딥 큐-러닝

딥 큐-러닝(Deep Q-Learning)은 합성곱 신경망을 이용하여 큐-함수를 학습하는 강화 학습 기법입니다. 이때 합성곱층을 깊게 하여 훈련할 때, 큐 값의 정확도를 높이는 것을 목표로 합니다.

▲ 그림 12-13 딥 큐-러닝

딥 큐-러닝의 특징들을 하나씩 살펴보겠습니다.

강화 학습을 위한 시뮬레이션 환경을 제공(참고로 강화 학습은 주로 게임에서 사용)

강화 학습을 위한 시뮬레이션 환경을 구현하는 데 중요한 함수가 세 개 있습니다.

• reset() 함수: 환경을 초기화할 때 사용합니다. 에이전트가 게임을 시작하거나 초기화가 필요할 때 reset() 함수를 사용하며, 초기화될 때는 관찰 변수(상태를 관찰하고 그 정보를 저장)를 함께 반환합니다.

• step() 함수: 에이전트에 명령을 내리는 함수입니다. 따라서 가장 많이 호출되는 함수로, 이 함수로 행동 명령을 보내고 환경에서 관찰 변수, 보상 및 게임 종료 여부 등 변수를 반환합니다.

• render() 함수: 화면에 상태를 표시하는 역할을 합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.