rlu_dmlab_explore_object_rewards_many

  • Descripción :

RL Unplugged es un conjunto de puntos de referencia para el aprendizaje por refuerzo fuera de línea. El RL Unplugged está diseñado en torno a las siguientes consideraciones: para facilitar el uso, proporcionamos los conjuntos de datos con una API unificada que facilita al profesional trabajar con todos los datos en la suite una vez que se ha establecido una canalización general.

Los conjuntos de datos siguen el formato RLDS para representar pasos y episodios.

El conjunto de datos de DeepMind Lab tiene varios niveles de la suite Deepmind Lab desafiante y parcialmente observable. El conjunto de datos de DeepMind Lab se recopila capacitando a los agentes R2D2 distribuidos por Kapturowski et al., 2018 desde cero en tareas individuales. Registramos la experiencia de todos los actores durante todo el entrenamiento varias veces para cada tarea. Los detalles del proceso de generación de conjuntos de datos se describen en Gulcehre et al., 2021 .

Publicamos conjuntos de datos para cinco niveles diferentes de DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . También lanzamos los conjuntos de datos de instantáneas para el nivel seekavoid_arena_01 en el que generamos los conjuntos de datos a partir de una instantánea R2D2 entrenada con diferentes niveles de épsilons para el algoritmo ávido de épsilons al evaluar el agente en el entorno.

El conjunto de datos de DeepMind Lab es bastante grande. Le recomendamos que lo pruebe si está interesado en modelos RL sin conexión a gran escala con memoria.

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
episodio_id Tensor int64
episodio_retorno Tensor flotar32
pasos conjunto de datos
pasos/acción Tensor int64
pasos/descuento Tensor flotar32
pasos/es_primero Tensor bool
pasos/es_último Tensor bool
pasos/es_terminal Tensor bool
pasos/observación CaracterísticasDict
pasos/observación/última_acción Tensor int64
pasos/observación/última_recompensa Tensor flotar32
pasos/observación/píxeles Imagen (72, 96, 3) uint8
pasos/recompensa Tensor flotar32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_many/training_0 (configuración predeterminada)

  • Tamaño del conjunto de datos : 1.51 TiB

  • Divisiones :

Separar Ejemplos
'train' 111,370

rlu_dmlab_explore_object_rewards_many/entrenamiento_1

  • Tamaño del conjunto de datos : 1.44 TiB

  • Divisiones :

Separar Ejemplos
'train' 111,367

rlu_dmlab_explore_object_rewards_many/entrenamiento_2

  • Tamaño del conjunto de datos : 1.48 TiB

  • Divisiones :

Separar Ejemplos
'train' 111,367