- Descripción :
RL Unplugged es un conjunto de puntos de referencia para el aprendizaje por refuerzo fuera de línea. El RL Unplugged está diseñado en torno a las siguientes consideraciones: para facilitar el uso, proporcionamos los conjuntos de datos con una API unificada que facilita al profesional trabajar con todos los datos en la suite una vez que se ha establecido una canalización general.
Los conjuntos de datos siguen el formato RLDS para representar pasos y episodios.
El conjunto de datos de DeepMind Lab tiene varios niveles de la suite Deepmind Lab desafiante y parcialmente observable. El conjunto de datos de DeepMind Lab se recopila capacitando a los agentes R2D2 distribuidos por Kapturowski et al., 2018 desde cero en tareas individuales. Registramos la experiencia de todos los actores durante todo el entrenamiento varias veces para cada tarea. Los detalles del proceso de generación de conjuntos de datos se describen en Gulcehre et al., 2021 .
Publicamos conjuntos de datos para cinco niveles diferentes de DeepMind Lab: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. También lanzamos los conjuntos de datos de instantáneas para el nivel seekavoid_arena_01
en el que generamos los conjuntos de datos a partir de una instantánea R2D2 entrenada con diferentes niveles de épsilons para el algoritmo ávido de épsilons al evaluar el agente en el entorno.
El conjunto de datos de DeepMind Lab es bastante grande. Le recomendamos que lo pruebe si está interesado en modelos RL sin conexión a gran escala con memoria.
Página de inicio: https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Código fuente :
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_many.RluDmlabExploreObjectRewardsMany
Versiones :
-
1.0.0
: Versión inicial. -
1.1.0
: Se agregó is_last. -
1.2.0
(predeterminado): BGR -> Corrección RGB para observaciones de píxeles.
-
Tamaño de descarga :
Unknown size
Almacenamiento automático en caché ( documentación ): No
Estructura de características :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
episodio_id | Tensor | int64 | ||
episodio_retorno | Tensor | flotar32 | ||
pasos | conjunto de datos | |||
pasos/acción | Tensor | int64 | ||
pasos/descuento | Tensor | flotar32 | ||
pasos/es_primero | Tensor | bool | ||
pasos/es_último | Tensor | bool | ||
pasos/es_terminal | Tensor | bool | ||
pasos/observación | CaracterísticasDict | |||
pasos/observación/última_acción | Tensor | int64 | ||
pasos/observación/última_recompensa | Tensor | flotar32 | ||
pasos/observación/píxeles | Imagen | (72, 96, 3) | uint8 | |
pasos/recompensa | Tensor | flotar32 |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_many/training_0 (configuración predeterminada)
Tamaño del conjunto de datos :
1.51 TiB
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 111,370 |
- Ejemplos ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_many/entrenamiento_1
Tamaño del conjunto de datos :
1.44 TiB
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 111,367 |
- Ejemplos ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_many/entrenamiento_2
Tamaño del conjunto de datos :
1.48 TiB
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 111,367 |
- Ejemplos ( tfds.as_dataframe ):