더북(TheBook)

smooth_l1_loss의 수식은 다음과 같습니다.

이때 zi 조건은 다음과 같습니다.

이때 beta의 기본값은 1.0입니다. smooth_l1_lossnn.MSELoss보다 이상치에 덜 민감하며 경우에 따라 기울기 폭발을 방지합니다. 특히 기울기 폭발 문제가 발생할 수 있는 Fast R-CNN 모델에서 많이 사용됩니다.

smooth_l1_loss에서 사용하는 파라미터는 다음과 같습니다.

ⓐ 첫 번째 파라미터: Q(st,at) 값

ⓑ 두 번째 파라미터: V(st+1) 값

모델 학습의 목표는 카트를 이동하면서 막대기를 수직으로 위치시키는 것입니다. 이를 위해 행동은 무작위로 선택되거나 정책에 따라 움직이게 되며, 행동에 대한 결과를 리플레이 메모리(ReplayMemory())에 기록합니다. 그리고 모든 학습(에포크)에서는 optimize_model()을 사용합니다. optimize_model()은 리플레이 메모리에서 무작위 데이터를 선택하여 새로운 정책을 학습합니다. 마지막으로 최신 상태를 유지하기 위해 target_net에 가중치 및 바이어스를 업데이트합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.