- Descrizione :
RL Unplugged è una suite di benchmark per l'apprendimento per rinforzo offline. RL Unplugged è progettato sulla base delle seguenti considerazioni: per facilitare la facilità d'uso, forniamo ai set di dati un'API unificata che rende facile per il professionista lavorare con tutti i dati nella suite una volta stabilita una pipeline generale.
I set di dati seguono il formato RLDS per rappresentare passaggi ed episodi.
Il set di dati DeepMind Lab ha diversi livelli rispetto alla suite Deepmind Lab , impegnativa e parzialmente osservabile. Il set di dati di DeepMind Lab viene raccolto addestrando gli agenti R2D2 distribuiti da Kapturowski et al., 2018 da zero su singole attività. Abbiamo registrato l'esperienza di tutti gli attori durante l'intera formazione alcune volte per ogni attività. I dettagli del processo di generazione del set di dati sono descritti in Gulcehre et al., 2021 .
Rilasciamo set di dati per cinque diversi livelli di DeepMind Lab: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Rilasciamo anche i set di dati snapshot per il livello seekavoid_arena_01
che abbiamo generato i set di dati da uno snapshot R2D2 addestrato con diversi livelli di epsilon per l'algoritmo epsilon-greedy durante la valutazione dell'agente nell'ambiente.
Il set di dati di DeepMind Lab è piuttosto ampio. Ti consigliamo di provarlo se sei interessato a modelli RL offline su larga scala con memoria.
Pagina iniziale : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Codice sorgente :
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
Versioni :
-
1.0.0
: Versione iniziale. -
1.1.0
: Aggiunto is_last. -
1.2.0
(predefinito): BGR -> Correzione RGB per le osservazioni dei pixel.
-
Dimensioni del download :
Unknown size
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'train' | 89.144 |
- Struttura delle caratteristiche :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
episodio_id | Tensore | int64 | ||
episodio_ritorno | Tensore | galleggiante32 | ||
passi | Set di dati | |||
passi/azione | Tensore | int64 | ||
passi/sconto | Tensore | galleggiante32 | ||
passi/è_primo | Tensore | bool | ||
passi/è_ultimo | Tensore | bool | ||
passi/è_terminale | Tensore | bool | ||
passi/osservazione | CaratteristicheDict | |||
passi/osservazione/ultima_azione | Tensore | int64 | ||
passi/osservazione/ultima_ricompensa | Tensore | galleggiante32 | ||
passi/osservazione/pixel | Immagine | (72, 96, 3) | uint8 | |
passi/ricompensa | Tensore | galleggiante32 |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_few/training_0 (configurazione predefinita)
Dimensione del set di dati:
847.00 GiB
Esempi ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_1
Dimensione del set di dati:
877.76 GiB
Esempi ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_2
Dimensione del set di dati:
836.43 GiB
Esempi ( tfds.as_dataframe ):