각 행동마다 -1을 보상으로 받는데, 승객을 목적지에 내려 주면 +20을 보상으로 받습니다. 단 승객을 잘못 태우거나 내리면 -10을 보상으로 받습니다.
예제를 실행하기 위해 다음 패키지를 설치합니다.
> pip install progressbar2
> pip install gym
gym은 손쉽게 강화 학습 환경을 구성할 수 있도록 도와주는 파이썬 패키지입니다. gym 패키지를 이용해서 강화 학습(DQN) 훈련 환경을 만들어 보는 예제를 진행하겠습니다.
먼저 필요한 라이브러리를 호출합니다.
코드 12-1 라이브러리 호출
import numpy as np
import random
from IPython.display import clear_output
from collections import deque ------ 에이전트가 환경에 반응한 경험을 저장
import gym
from tensorflow.keras import Model, Sequential
from tensorflow.keras.layers import Dense, Embedding, Reshape
from tensorflow.keras.optimizers import Adam