타깃 큐-네트워크
큐-러닝에서는 큐-함수가 학습되면서 큐 값이 계속 바뀌는 문제가 있었는데, 딥 큐-러닝에서는 이 문제를 해결하기 위해 타깃 큐-네트워크(target Q-network)를 사용합니다. 즉, 큐-네트워크 외에 별도로 타깃 큐-네트워크를 두는 것이 특징입니다. 두 네트워크는 가중치 파라미터만 다르고 완전히 같습니다. DQN에서는 수렴을 원활하게 시키기 위해 타깃 큐-네트워크를 계속 업데이트하는 것이 아니라 주기적으로 한 번씩 업데이트합니다.
▲ 그림 12-14 딥 큐-러닝 네트워크 상세 구조
훈련을 수행할 때의 손실 함수로는 MSE를 사용합니다. 네트워크 두 개가 분리되어 있으므로 각 네트워크에서 사용되는 파라미터 θ의 표기가 다른 것을 확인할 수 있습니다.