DQN C51/Gökkuşağı

Bu örnek, Şekil nasıl yetiştirmek Kategorik DQN (C51) , TF-Ajanlar kütüphanesi kullanılarak Cartpole çevreye madde.

Kart direği ortamı

Emin bir göz atın olun DQN öğretici bir önkoşul olarak. Bu öğretici, DQN öğreticisine aşinalık kazanacaktır; esas olarak DQN ve C51 arasındaki farklara odaklanacaktır.


Henüz tf-agent'ları yüklemediyseniz, şunu çalıştırın:

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import base64
import imageio
import IPython
import matplotlib
import matplotlib.pyplot as plt
import PIL.Image
import pyvirtualdisplay

import tensorflow as tf

from tf_agents.agents.categorical_dqn import categorical_dqn_agent
from tf_agents.drivers import dynamic_step_driver
from tf_agents.environments import suite_gym
from tf_agents.environments import tf_py_environment
from tf_agents.eval import metric_utils
from tf_agents.metrics import tf_metrics
from tf_agents.networks import categorical_q_network
from tf_agents.policies import random_tf_policy
from tf_agents.replay_buffers import tf_uniform_replay_buffer
from tf_agents.trajectories import trajectory
from tf_agents.utils import common

# Set up a virtual display for rendering OpenAI gym environments.
display = pyvirtualdisplay.Display(visible=0, size=(1400, 900)).start()


env_name = "CartPole-v1" # @param {type:"string"}
num_iterations = 15000 # @param {type:"integer"}

initial_collect_steps = 1000  # @param {type:"integer"} 
collect_steps_per_iteration = 1  # @param {type:"integer"}
replay_buffer_capacity = 100000  # @param {type:"integer"}

fc_layer_params = (100,)

batch_size = 64  # @param {type:"integer"}
learning_rate = 1e-3  # @param {type:"number"}
gamma = 0.99
log_interval = 200  # @param {type:"integer"}

num_atoms = 51  # @param {type:"integer"}
min_q_value = -20  # @param {type:"integer"}
max_q_value = 20  # @param {type:"integer"}
n_step_update = 2  # @param {type:"integer"}

num_eval_episodes = 10  # @param {type:"integer"}
eval_interval = 1000  # @param {type:"integer"}


Biri eğitim, diğeri değerlendirme için olmak üzere ortamı daha önce olduğu gibi yükleyin. Burada, 200 yerine 500'lük daha büyük bir maksimum ödüle sahip olan CartPole-v1'i (DQN eğitiminde CartPole-v0'a karşı) kullanıyoruz.

train_py_env = suite_gym.load(env_name)
eval_py_env = suite_gym.load(env_name)

train_env = tf_py_environment.TFPyEnvironment(train_py_env)
eval_env = tf_py_environment.TFPyEnvironment(eval_py_env)


C51, DQN'ye dayalı bir Q-öğrenme algoritmasıdır. DQN gibi, ayrı bir eylem alanı olan herhangi bir ortamda kullanılabilir.

C51 ve DQN arasındaki temel fark, her durum-eylem çifti için Q değerini basitçe tahmin etmek yerine, C51'in Q değerinin olasılık dağılımı için bir histogram modeli tahmin etmesidir:

Örnek C51 Dağıtımı

Algoritma, yalnızca beklenen değerden ziyade dağılımı öğrenerek, eğitim sırasında daha kararlı kalabilir ve bu da nihai performansın iyileştirilmesine yol açar. Bu özellikle, tek bir ortalamanın doğru bir resim sağlamadığı iki modlu veya hatta çok modlu değer dağılımları olan durumlarda geçerlidir.

Değerler yerine olasılık dağılımları üzerinde eğitim almak için C51'in kayıp fonksiyonunu hesaplamak için bazı karmaşık dağılım hesaplamaları yapması gerekir. Ama merak etmeyin, tüm bunlar sizin için TF-Agents'ta hallediliyor!

Bir C51 Ajan oluşturmak için öncelikle bir oluşturmanız gerekir CategoricalQNetwork . API CategoricalQNetwork ile aynı olan QNetwork , bir argüman olduğunu hariç num_atoms . Bu, olasılık dağılımı tahminlerimizdeki destek noktalarının sayısını temsil eder. (Yukarıdaki görüntü, her biri dikey bir mavi çubukla temsil edilen 10 destek noktası içermektedir.) Adından da anlaşılacağı gibi, varsayılan atom sayısı 51'dir.

categorical_q_net = categorical_q_network.CategoricalQNetwork(

Biz de bir ihtiyaç optimizer önce oluşturduğumuz ağını eğitmek için ve train_step_counter ağ güncellendi kaç kez takip etmek için değişken.

Vanilya itibaren bir diğer önemli fark, Not DqnAgent şimdi belirtmek gerekir ki min_q_value ve max_q_value bağımsız değişkenleri olarak. Bunlar, desteğin en uç değerlerini belirtir (başka bir deyişle, her iki taraftaki 51 atomun en uç noktası). Bunları kendi ortamınız için uygun şekilde seçtiğinizden emin olun. Burada -20 ve 20 kullanıyoruz.

optimizer = tf.compat.v1.train.AdamOptimizer(learning_rate=learning_rate)

train_step_counter = tf.Variable(0)

agent = categorical_dqn_agent.CategoricalDqnAgent(

Nota son bir nokta ile de kullanım n-adım güncellemeleri için bir bağımsız değişken ilave olmasıdır \(n\) tek adım S-öğrenme (In = 2.\(n\) , sadece Q-değeri arasındaki hatayı hesaplamak = 1) mevcut zaman adımında ve tek adımlı dönüşü kullanarak bir sonraki zaman adımında (Belman optimallik denklemine göre). Tek adımlı dönüş şu şekilde tanımlanır:

\(G_t = R_{t + 1} + \gamma V(s_{t + 1})\)

tanımladığımızı burada \(V(s) = \max_a{Q(s, a)}\).

N-adım güncellemeler standart tek aşamalı dönüş fonksiyonu genişletilmesini içeren \(n\) kez:

\(G_t^n = R_{t + 1} + \gamma R_{t + 2} + \gamma^2 R_{t + 3} + \dots + \gamma^n V(s_{t + n})\)

N-adım güncellemeler gelecekte daha da gelen bootstrap ajan sağlamak ve sağ değeriyle \(n\), bu genellikle potansiyel müşteriler daha hızlı öğrenme.

C51 ve n-adım güncellemeleri genellikle çekirdeğini oluşturmak üzere öncelikli tekrar gösterin birleştirilir rağmen Gökkuşağı ajan , biz öncelikli tekrarını uygulamaktan ölçülebilir bir iyileşme gördük. Ayrıca, C51 aracımızı tek başına n adımlı güncellemelerle birleştirirken, aracımızın test ettiğimiz Atari ortamları örneğinde diğer Rainbow ajanları kadar iyi performans gösterdiğini görüyoruz.

Metrikler ve Değerlendirme

Bir politikayı değerlendirmek için kullanılan en yaygın ölçüm ortalama getiridir. Geri dönüş, bir bölümde bir ortamda bir ilke çalıştırırken elde edilen ödüllerin toplamıdır ve genellikle bunun ortalamasını birkaç bölüm üzerinden alırız. Ortalama getiri metriğini aşağıdaki gibi hesaplayabiliriz.

def compute_avg_return(environment, policy, num_episodes=10):

  total_return = 0.0
  for _ in range(num_episodes):

    time_step = environment.reset()
    episode_return = 0.0

    while not time_step.is_last():
      action_step = policy.action(time_step)
      time_step = environment.step(action_step.action)
      episode_return += time_step.reward
    total_return += episode_return

  avg_return = total_return / num_episodes
  return avg_return.numpy()[0]

random_policy = random_tf_policy.RandomTFPolicy(train_env.time_step_spec(),

compute_avg_return(eval_env, random_policy, num_eval_episodes)

# Please also see the metrics module for standard implementations of different
# metrics.
# metrics.

Veri toplama

DQN eğitiminde olduğu gibi, yeniden oynatma arabelleğini ve rastgele ilkeyle ilk veri toplamayı ayarlayın.

replay_buffer = tf_uniform_replay_buffer.TFUniformReplayBuffer(

def collect_step(environment, policy):
  time_step = environment.current_time_step()
  action_step = policy.action(time_step)
  next_time_step = environment.step(action_step.action)
  traj = trajectory.from_transition(time_step, action_step, next_time_step)

  # Add trajectory to the replay buffer

for _ in range(initial_collect_steps):
  collect_step(train_env, random_policy)

# This loop is so common in RL, that we provide standard implementations of
# these. For more details see the drivers module.

# Dataset generates trajectories with shape [BxTx...] where
# T = n_step_update + 1.
# T = n_step_update + 1.
dataset = replay_buffer.as_dataset(
    num_parallel_calls=3, sample_batch_size=batch_size,
    num_steps=n_step_update + 1).prefetch(3)

iterator = iter(dataset)
Temsilciyi eğitmek

Eğitim döngüsü, hem ortamdan veri toplamayı hem de aracının ağlarını optimize etmeyi içerir. Yol boyunca, nasıl yaptığımızı görmek için ara sıra temsilcinin politikasını değerlendireceğiz.

Aşağıdakilerin çalışması ~7 dakika sürecektir.


# (Optional) Optimize by wrapping some of the code in a graph using TF function.
agent.train = common.function(agent.train)

# Reset the train step

# Evaluate the agent's policy once before training.
avg_return = compute_avg_return(eval_env, agent.policy, num_eval_episodes)
returns = [avg_return]

for _ in range(num_iterations):

  # Collect a few steps using collect_policy and save to the replay buffer.
  for _ in range(collect_steps_per_iteration):
    collect_step(train_env, agent.collect_policy)

  # Sample a batch of data from the buffer and update the agent's network.
  experience, unused_info = next(iterator)
  train_loss = agent.train(experience)

  step = agent.train_step_counter.numpy()

  if step % log_interval == 0:
    print('step = {0}: loss = {1}'.format(step, train_loss.loss))

  if step % eval_interval == 0:
    avg_return = compute_avg_return(eval_env, agent.policy, num_eval_episodes)
    print('step = {0}: Average Return = {1:.2f}'.format(step, avg_return))
Temsilcimizin performansını görmek için geri dönüş ve küresel adımların grafiğini çizebiliriz. In Cartpole-v1 , çevre her zaman adımı için kutup kalır +1 bir ödül yukarı verir ve adımların sayısı en fazla 500 olduğundan, mümkün olan maksimum getiri de 500 olduğunu.

steps = range(0, num_iterations + 1, eval_interval)
plt.plot(steps, returns)
plt.ylabel('Average Return')
(19.485000991821288, 550.0)



Her adımda ortamı işleyerek bir aracının performansını görselleştirmek yararlıdır. Bunu yapmadan önce, videoları bu ortak çalışmaya gömmek için bir fonksiyon oluşturalım.

def embed_mp4(filename):
  """Embeds an mp4 file in the notebook."""
  video = open(filename,'rb').read()
  b64 = base64.b64encode(video)
  tag = '''
  <video width="640" height="480" controls>
    <source src="data:video/mp4;base64,{0}" type="video/mp4">
  Your browser does not support the video tag.

  return IPython.display.HTML(tag)

Aşağıdaki kod, aracının birkaç bölüm için politikasını görselleştirir:

num_episodes = 3
video_filename = 'imageio.mp4'
with imageio.get_writer(video_filename, fps=60) as video:
  for _ in range(num_episodes):
    time_step = eval_env.reset()
    while not time_step.is_last():
      action_step = agent.policy.action(time_step)
      time_step = eval_env.step(action_step.action)

C51, CartPole-v1'de DQN'den biraz daha iyi olma eğilimindedir, ancak iki ajan arasındaki fark, giderek daha karmaşık ortamlarda daha önemli hale gelir. Örneğin, tam Atari 2600 kıyaslama testinde C51, rastgele bir ajana göre normalleştirmeden sonra DQN'ye göre %126'lık bir ortalama puan artışı gösterir. n adımlı güncellemeler dahil edilerek ek iyileştirmeler elde edilebilir.

C51 algoritması daha derin bir dalış için bkz Takviye Öğrenme (2017) A Dağılımsal Perspektif .