더북(TheBook)

각 행동마다 -1을 보상으로 받는데, 승객을 목적지에 내려 주면 +20을 보상으로 받습니다. 단 승객을 잘못 태우거나 내리면 -10을 보상으로 받습니다.

예제를 실행하기 위해 다음 패키지를 설치합니다.

> pip install progressbar2
> pip install gym

gym은 손쉽게 강화 학습 환경을 구성할 수 있도록 도와주는 파이썬 패키지입니다. gym 패키지를 이용해서 강화 학습(DQN) 훈련 환경을 만들어 보는 예제를 진행하겠습니다.

먼저 필요한 라이브러리를 호출합니다.

코드 12-1 라이브러리 호출

import numpy as np
import random
from IPython.display import clear_output
from collections import deque ------ 에이전트가 환경에 반응한 경험을 저장
import gym
from tensorflow.keras import Model, Sequential
from tensorflow.keras.layers import Dense, Embedding, Reshape
from tensorflow.keras.optimizers import Adam
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.