딥러닝 파이토치 교과서: 12.2.3 마르코프 결정 과정

3. 시간 차 학습(temporal difference learning): 몬테카를로는 최종 상태까지 도달한 후에야 방문한 상태들의 업데이트가 가능하다는 단점이 있습니다. 시간 차 학습 방식은 최종 상태에 도달하기 전에 방문한 상태의 가치를 즉시 업데이트합니다. 즉, 시간 차 학습은 다이나믹 프로그래밍과 몬테카를로의 중간적인 특성을 가지며 본격적인 강화 학습의 단계라고 할 수 있습니다.

4. 함수적 접근 학습(function approximation learning): 마르코프 결정 과정의 상태가 아주 많거나, 상태가 연속적인 값을 갖는 경우는 상태-가치 함수나 행동-가치 함수를 테이블 형태로 학습하기 어렵습니다. 함수적 접근 학습 방법은 연속적인 상태를 학습하고자 상태와 관련된 특성 벡터를 도입했습니다. 특성의 가중치를 업데이트하여 가치의 근사치를 찾을 수 있습니다.

다이나믹 프로그래밍은 12.3.3절에서 자세히 다룹니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.