더북(TheBook)

(현재 가치)에 (이자: 현재 가치×이자율)을 더하면 (미래 가치)가 됩니다. 그렇다면 (현재 가치)와 (미래 가치)를 비교한다면 (현재 가치) < (미래 가치)가 성립할까요? (현재 가치)와 (미래 가치)를 비교하기 위해서는 시간 개념이 필요합니다. (현재 가치)는 t 시간이고 (미래 가치)는 t 시간보다 더 미래의 시간입니다. 미래 가치는 t 시간으로부터 충분히 시간이 지나고, 그에 따른 이자가 붙어야만 현재 가치와 동일해집니다. 즉, 미래 가치를 현재 시점으로 보면 현재 가치보다 적은 것입니다. 이를 수식적으로 반영한 것이 할인율(discounting factor, γ)입니다. 보통 γ는 0과 1 사이의 값으로 하여 미래 가치를 현재 시점에서의 가치로 변환합니다.

그리고 미래에 받게 될 보상들이 모두 0이 되면, 바로 다음의 보상만 추구하는 근시안적인 행동을 하게 될 것입니다. 반대로 할인율이 1과 가까워질수록 미래 보상에 대한 할인이 적어지기 때문에 미래 보상들을 더 많이 고려하게 되는 원시안적인 행동을 하게 됩니다.

따라서 할인율이 적용된 리턴(Gt)은 다음 수식을 사용합니다.

추가적으로 가치 함수(value function)에 대한 이해도 필요합니다. 현재 상태가 s일 때 앞으로 발생할 것으로 기대되는(E) 모든 보상의 합을 가치(value)라고 합니다. 이것을 수학적으로 표현하면 다음과 같습니다.

v(s) = E[Gt | St = s]

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.