- Descriptif :
RL Unplugged est une suite de références pour l'apprentissage par renforcement hors ligne. Le RL Unplugged est conçu autour des considérations suivantes : pour faciliter l'utilisation, nous fournissons les ensembles de données avec une API unifiée qui permet au praticien de travailler facilement avec toutes les données de la suite une fois qu'un pipeline général a été établi.
Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.
L'ensemble de données DeepMind Lab comporte plusieurs niveaux de la suite Deepmind Lab difficile et partiellement observable. L'ensemble de données DeepMind Lab est collecté par la formation distribuée R2D2 par Kapturowski et al., 2018 agents à partir de zéro sur des tâches individuelles. Nous avons enregistré l'expérience de tous les acteurs pendant des cycles de formation complets à quelques reprises pour chaque tâche. Les détails du processus de génération de l'ensemble de données sont décrits dans Gulcehre et al., 2021 .
Nous publions des ensembles de données pour cinq niveaux DeepMind Lab différents : seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Nous publions également les ensembles de données d'instantanés pour le niveau seekavoid_arena_01
que nous avons générés à partir d'un instantané R2D2 formé avec différents niveaux d'epsilons pour l'algorithme epsilon-greedy lors de l'évaluation de l'agent dans l'environnement.
L'ensemble de données DeepMind Lab est assez vaste. Nous vous recommandons de l'essayer si vous êtes intéressé par les modèles RL hors ligne à grande échelle avec mémoire.
Page d' accueil : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Code source :
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_many.RluDmlabExploreObjectRewardsMany
Versions :
-
1.0.0
: Version initiale. -
1.1.0
: Ajout de is_last. -
1.2.0
(par défaut) : BGR -> Correction RVB pour les observations de pixels.
-
Taille du téléchargement :
Unknown size
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
épisode_id | Tenseur | int64 | ||
retour_épisode | Tenseur | float32 | ||
pas | Base de données | |||
étapes/action | Tenseur | int64 | ||
étapes/réduction | Tenseur | float32 | ||
étapes/is_first | Tenseur | bourdonner | ||
pas/est_dernier | Tenseur | bourdonner | ||
étapes/is_terminal | Tenseur | bourdonner | ||
étapes/observation | FonctionnalitésDict | |||
étapes/observation/dernière_action | Tenseur | int64 | ||
étapes/observation/dernière_récompense | Tenseur | float32 | ||
pas/observation/pixels | Image | (72, 96, 3) | uint8 | |
pas/récompense | Tenseur | float32 |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_many/training_0 (configuration par défaut)
Taille du jeu de données :
1.51 TiB
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 111 370 |
- Exemples ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_many/training_1
Taille du jeu de données :
1.44 TiB
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 111 367 |
- Exemples ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_many/training_2
Taille du jeu de données :
1.48 TiB
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 111 367 |
- Exemples ( tfds.as_dataframe ):