- Descrizione :
RL Unplugged è una suite di benchmark per l'apprendimento per rinforzo offline. RL Unplugged è progettato sulla base delle seguenti considerazioni: per facilitare la facilità d'uso, forniamo ai set di dati un'API unificata che rende facile per il professionista lavorare con tutti i dati nella suite una volta stabilita una pipeline generale.
I set di dati seguono il formato RLDS per rappresentare passaggi ed episodi.
Queste attività sono costituite dalle attività di locomozione del corridoio che coinvolgono l'umanoide CMU, per le quali gli sforzi precedenti hanno utilizzato i dati di motion capture Merel et al., 2019a , Merel et al., 2019b o l'addestramento da zero Song et al., 2020 . Inoltre, il repository DM Locomotion contiene una serie di compiti adattati per adattarsi a un roditore virtuale Merel et al., 2020 . Sottolineiamo che le attività di locomozione DM presentano la combinazione di un controllo continuo impegnativo ad alto DoF insieme alla percezione da ricche osservazioni egocentriche. Per i dettagli su come è stato generato il set di dati, fare riferimento al documento.
Ti consigliamo di provare i metodi RL offline sul set di dati DeepMind Locomotion, se sei interessato a set di dati RL offline molto impegnativi con spazio di azione continuo.
Pagina iniziale : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Codice sorgente :
tfds.rl_unplugged.rlu_locomotion.RluLocomotion
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensioni del download :
Unknown size
Cache automatica ( documentazione ): No
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@inproceedings{gulcehre2020rl,
title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
booktitle = {Advances in Neural Information Processing Systems},
pages = {7248--7259},
volume = {33},
year = {2020}
}
rlu_locomotion/humanoid_corridor (configurazione predefinita)
Dimensione del set di dati:
1.88 GiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 4.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
episodio_id | Tensore | int64 | ||
passi | Set di dati | |||
passi/azione | Tensore | (56,) | galleggiante32 | |
passi/sconto | Tensore | galleggiante32 | ||
passi/è_primo | Tensore | bool | ||
passi/è_ultimo | Tensore | bool | ||
passi/è_terminale | Tensore | bool | ||
passi/osservazione | CaratteristicheDict | |||
passi/osservazione/camminatore | CaratteristicheDict | |||
passi/osservazione/camminatore/altezza_corpo | Tensore | (1,) | galleggiante32 | |
passi/osservazione/camminatore/egocentric_camera | Immagine | (64, 64, 3) | uint8 | |
passi/osservazione/camminatore/end_effectors_pos | Tensore | (12,) | galleggiante32 | |
passi/osservazione/camminatore/articolazioni_pos | Tensore | (56,) | galleggiante32 | |
passi/osservazione/camminatore/articolazioni_vel | Tensore | (56,) | galleggiante32 | |
passi/osservazione/camminatore/sensori_accelerometro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/walker/sensors_gyro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/walker/sensors_velocimeter | Tensore | (3,) | galleggiante32 | |
passi/osservazione/walker/world_zaxis | Tensore | (3,) | galleggiante32 | |
passi/ricompensa | Tensore | galleggiante32 | ||
timestamp | Tensore | int64 |
- Esempi ( tfds.as_dataframe ):
rlu_locomotion/humanoid_gaps
Dimensione del set di dati:
4.57 GiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 8.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
episodio_id | Tensore | int64 | ||
passi | Set di dati | |||
passi/azione | Tensore | (56,) | galleggiante32 | |
passi/sconto | Tensore | galleggiante32 | ||
passi/è_primo | Tensore | bool | ||
passi/è_ultimo | Tensore | bool | ||
passi/è_terminale | Tensore | bool | ||
passi/osservazione | CaratteristicheDict | |||
passi/osservazione/camminatore | CaratteristicheDict | |||
passi/osservazione/camminatore/altezza_corpo | Tensore | (1,) | galleggiante32 | |
passi/osservazione/camminatore/egocentric_camera | Immagine | (64, 64, 3) | uint8 | |
passi/osservazione/camminatore/end_effectors_pos | Tensore | (12,) | galleggiante32 | |
passi/osservazione/camminatore/articolazioni_pos | Tensore | (56,) | galleggiante32 | |
passi/osservazione/camminatore/articolazioni_vel | Tensore | (56,) | galleggiante32 | |
passi/osservazione/camminatore/sensori_accelerometro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/walker/sensors_gyro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/walker/sensors_velocimeter | Tensore | (3,) | galleggiante32 | |
passi/osservazione/walker/world_zaxis | Tensore | (3,) | galleggiante32 | |
passi/ricompensa | Tensore | galleggiante32 | ||
timestamp | Tensore | int64 |
- Esempi ( tfds.as_dataframe ):
rlu_locomotion/humanoid_walls
Dimensione del set di dati:
2.36 GiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 4.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
episodio_id | Tensore | int64 | ||
passi | Set di dati | |||
passi/azione | Tensore | (56,) | galleggiante32 | |
passi/sconto | Tensore | galleggiante32 | ||
passi/è_primo | Tensore | bool | ||
passi/è_ultimo | Tensore | bool | ||
passi/è_terminale | Tensore | bool | ||
passi/osservazione | CaratteristicheDict | |||
passi/osservazione/camminatore | CaratteristicheDict | |||
passi/osservazione/camminatore/altezza_corpo | Tensore | (1,) | galleggiante32 | |
passi/osservazione/camminatore/egocentric_camera | Immagine | (64, 64, 3) | uint8 | |
passi/osservazione/camminatore/end_effectors_pos | Tensore | (12,) | galleggiante32 | |
passi/osservazione/camminatore/articolazioni_pos | Tensore | (56,) | galleggiante32 | |
passi/osservazione/camminatore/articolazioni_vel | Tensore | (56,) | galleggiante32 | |
passi/osservazione/camminatore/sensori_accelerometro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/walker/sensors_gyro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/walker/sensors_velocimeter | Tensore | (3,) | galleggiante32 | |
passi/osservazione/walker/world_zaxis | Tensore | (3,) | galleggiante32 | |
passi/ricompensa | Tensore | galleggiante32 | ||
timestamp | Tensore | int64 |
- Esempi ( tfds.as_dataframe ):
rlu_locomotion/rodent_bowl_escape
Dimensione del set di dati:
16.46 GiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 2.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
episodio_id | Tensore | int64 | ||
passi | Set di dati | |||
passi/azione | Tensore | (38,) | galleggiante32 | |
passi/sconto | Tensore | galleggiante32 | ||
passi/è_primo | Tensore | bool | ||
passi/è_ultimo | Tensore | bool | ||
passi/è_terminale | Tensore | bool | ||
passi/osservazione | CaratteristicheDict | |||
passi/osservazione/camminatore | CaratteristicheDict | |||
passi/osservazione/camminatore/appendici_pos | Tensore | (15,) | galleggiante32 | |
passi/osservazione/camminatore/egocentric_camera | Immagine | (64, 64, 3) | uint8 | |
passi/osservazione/camminatore/articolazioni_pos | Tensore | (30,) | galleggiante32 | |
passi/osservazione/camminatore/articolazioni_vel | Tensore | (30,) | galleggiante32 | |
passi/osservazione/camminatore/sensori_accelerometro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/walker/sensors_gyro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/camminatore/sensori_tocco | Tensore | (4,) | galleggiante32 | |
passi/osservazione/walker/sensors_velocimeter | Tensore | (3,) | galleggiante32 | |
passi/osservazione/deambulatore/tendons_pos | Tensore | (8,) | galleggiante32 | |
passi/osservazione/camminatore/tendini_vel | Tensore | (8,) | galleggiante32 | |
passi/osservazione/walker/world_zaxis | Tensore | (3,) | galleggiante32 | |
passi/ricompensa | Tensore | galleggiante32 | ||
timestamp | Tensore | int64 |
- Esempi ( tfds.as_dataframe ):
rlu_locomotion/rodent_gaps
Dimensione del set di dati:
8.90 GiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 2.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
episodio_id | Tensore | int64 | ||
passi | Set di dati | |||
passi/azione | Tensore | (38,) | galleggiante32 | |
passi/sconto | Tensore | galleggiante32 | ||
passi/è_primo | Tensore | bool | ||
passi/è_ultimo | Tensore | bool | ||
passi/è_terminale | Tensore | bool | ||
passi/osservazione | CaratteristicheDict | |||
passi/osservazione/camminatore | CaratteristicheDict | |||
passi/osservazione/camminatore/appendici_pos | Tensore | (15,) | galleggiante32 | |
passi/osservazione/camminatore/egocentric_camera | Immagine | (64, 64, 3) | uint8 | |
passi/osservazione/camminatore/articolazioni_pos | Tensore | (30,) | galleggiante32 | |
passi/osservazione/camminatore/articolazioni_vel | Tensore | (30,) | galleggiante32 | |
passi/osservazione/camminatore/sensori_accelerometro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/walker/sensors_gyro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/camminatore/sensori_tocco | Tensore | (4,) | galleggiante32 | |
passi/osservazione/walker/sensors_velocimeter | Tensore | (3,) | galleggiante32 | |
passi/osservazione/deambulatore/tendons_pos | Tensore | (8,) | galleggiante32 | |
passi/osservazione/camminatore/tendini_vel | Tensore | (8,) | galleggiante32 | |
passi/osservazione/walker/world_zaxis | Tensore | (3,) | galleggiante32 | |
passi/ricompensa | Tensore | galleggiante32 | ||
timestamp | Tensore | int64 |
- Esempi ( tfds.as_dataframe ):
rlu_locomotion/rodent_mazes
Dimensione del set di dati:
20.71 GiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 2.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
episodio_id | Tensore | int64 | ||
passi | Set di dati | |||
passi/azione | Tensore | (38,) | galleggiante32 | |
passi/sconto | Tensore | galleggiante32 | ||
passi/è_primo | Tensore | bool | ||
passi/è_ultimo | Tensore | bool | ||
passi/è_terminale | Tensore | bool | ||
passi/osservazione | CaratteristicheDict | |||
passi/osservazione/camminatore | CaratteristicheDict | |||
passi/osservazione/camminatore/appendici_pos | Tensore | (15,) | galleggiante32 | |
passi/osservazione/camminatore/egocentric_camera | Immagine | (64, 64, 3) | uint8 | |
passi/osservazione/camminatore/articolazioni_pos | Tensore | (30,) | galleggiante32 | |
passi/osservazione/camminatore/articolazioni_vel | Tensore | (30,) | galleggiante32 | |
passi/osservazione/camminatore/sensori_accelerometro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/walker/sensors_gyro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/camminatore/sensori_tocco | Tensore | (4,) | galleggiante32 | |
passi/osservazione/walker/sensors_velocimeter | Tensore | (3,) | galleggiante32 | |
passi/osservazione/deambulatore/tendons_pos | Tensore | (8,) | galleggiante32 | |
passi/osservazione/camminatore/tendini_vel | Tensore | (8,) | galleggiante32 | |
passi/osservazione/walker/world_zaxis | Tensore | (3,) | galleggiante32 | |
passi/ricompensa | Tensore | galleggiante32 | ||
timestamp | Tensore | int64 |
- Esempi ( tfds.as_dataframe ):
rlu_locomotion/rodent_two_touch
Dimensione del set di dati:
23.05 GiB
Divisioni :
Diviso | Esempi |
---|---|
'train' | 2.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
episodio_id | Tensore | int64 | ||
passi | Set di dati | |||
passi/azione | Tensore | (38,) | galleggiante32 | |
passi/sconto | Tensore | galleggiante32 | ||
passi/è_primo | Tensore | bool | ||
passi/è_ultimo | Tensore | bool | ||
passi/è_terminale | Tensore | bool | ||
passi/osservazione | CaratteristicheDict | |||
passi/osservazione/camminatore | CaratteristicheDict | |||
passi/osservazione/camminatore/appendici_pos | Tensore | (15,) | galleggiante32 | |
passi/osservazione/camminatore/egocentric_camera | Immagine | (64, 64, 3) | uint8 | |
passi/osservazione/camminatore/articolazioni_pos | Tensore | (30,) | galleggiante32 | |
passi/osservazione/camminatore/articolazioni_vel | Tensore | (30,) | galleggiante32 | |
passi/osservazione/camminatore/sensori_accelerometro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/walker/sensors_gyro | Tensore | (3,) | galleggiante32 | |
passi/osservazione/camminatore/sensori_tocco | Tensore | (4,) | galleggiante32 | |
passi/osservazione/walker/sensors_velocimeter | Tensore | (3,) | galleggiante32 | |
passi/osservazione/deambulatore/tendons_pos | Tensore | (8,) | galleggiante32 | |
passi/osservazione/camminatore/tendini_vel | Tensore | (8,) | galleggiante32 | |
passi/osservazione/walker/world_zaxis | Tensore | (3,) | galleggiante32 | |
passi/ricompensa | Tensore | galleggiante32 | ||
timestamp | Tensore | int64 |
- Esempi ( tfds.as_dataframe ):