더북(TheBook)

① 네트워크의 첫 번째에 임베딩이 등장합니다. 여기에서 임베딩 역할은 가능한 상태 500개를 값 열 개로 표현하는 것입니다.

ⓐ 입력에 대한 차원(총 입력 개수)으로 500이 됩니다.

ⓑ 출력에 대한 차원(결과로 나오는 임베딩 벡터의 크기)으로 10이 됩니다.

ⓒ 입력 시퀀스의 길이를 의미합니다.

② 택시 기사가 승객을 태우고 목적지로 이동하기 위한 탐험(이동 방향)을 결정하는 방법입니다. 두 가지 방법이 가능한데, 엡실론(epsilon) 값을 기반으로 큐-네트워크를 호출하여 예측하거나 임의의 랜덤 값을 선택하여 경로를 탐험하고 행동을 취할 수 있습니다. 예제에서는 랜덤으로 값을 선택한 후 행동을 취하는 방법을 선택했습니다.

완료된 에이전트(agent) 객체를 생성하고 훈련시킬 준비를 합니다.

코드 12-4 훈련 준비

optimizer = Adam(learning_rate=0.01)
agent = Agent(env, optimizer)
batch_size = 32
num_of_episodes = 10
timesteps_per_episode = 10
agent.q_network.summary()
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.