- Description :
Les ensembles de données ont été créés avec un agent SAC formé à la récompense environnementale des tâches de locomotion MuJoCo. Ces ensembles de données sont utilisés dans What Matters for Adversarial Imitation Learning ? Orsini et coll. 2021 .
Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.
Page d'accueil : https://github.com/google-research/rlds
Code source :
tfds.rlds.datasets.locomotion.Locomotion
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Clés supervisées (Voir doc
as_supervised
) :None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{orsini2021matters,
title={What Matters for Adversarial Imitation Learning?},
author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
journal={International Conference in Machine Learning},
year={2021}
}
locomotion/ant_sac_1M_single_policy_stochastic (configuration par défaut)
Description de la configuration : Ensemble de données généré par un agent SAC formé pour 1 million d'étapes pour Ant.
Taille du téléchargement :
6.49 MiB
Taille de l'ensemble de données :
23.02 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :
Diviser | Exemples |
---|---|
'train' | 50 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(8,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(111,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/actions | Tenseur | (8,) | flotteur32 | |
étapes/remise | Tenseur | flotteur32 | ||
étapes/is_first | Tenseur | bouffon | ||
étapes/est_dernier | Tenseur | bouffon | ||
étapes/is_terminal | Tenseur | bouffon | ||
étapes/observation | Tenseur | (111,) | flotteur32 | |
étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
locomotion/hopper_sac_1M_single_policy_stochastic
Description de la configuration : Ensemble de données généré par un agent SAC formé pour 1 million d'étapes pour Hopper.
Taille du téléchargement :
2.26 MiB
Taille de l'ensemble de données :
2.62 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :
Diviser | Exemples |
---|---|
'train' | 50 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(3,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(11,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/actions | Tenseur | (3,) | flotteur32 | |
étapes/remise | Tenseur | flotteur32 | ||
étapes/is_first | Tenseur | bouffon | ||
étapes/est_dernier | Tenseur | bouffon | ||
étapes/is_terminal | Tenseur | bouffon | ||
étapes/observation | Tenseur | (11,) | flotteur32 | |
étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
locomotion/halfcheetah_sac_1M_single_policy_stochastic
Description de la configuration : Ensemble de données généré par un agent SAC formé pour 1 million d'étapes pour HalfCheetah.
Taille du téléchargement :
4.49 MiB
Taille de l'ensemble de données :
4.93 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :
Diviser | Exemples |
---|---|
'train' | 50 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/actions | Tenseur | (6,) | flotteur32 | |
étapes/remise | Tenseur | flotteur32 | ||
étapes/is_first | Tenseur | bouffon | ||
étapes/est_dernier | Tenseur | bouffon | ||
étapes/is_terminal | Tenseur | bouffon | ||
étapes/observation | Tenseur | (17,) | flotteur32 | |
étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
locomotion/walker2d_sac_1M_single_policy_stochastic
Description de la configuration : Ensemble de données généré par un agent SAC formé pour 1 million d'étapes pour Walker2d.
Taille du téléchargement :
4.35 MiB
Taille de l'ensemble de données :
4.91 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :
Diviser | Exemples |
---|---|
'train' | 50 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/actions | Tenseur | (6,) | flotteur32 | |
étapes/remise | Tenseur | flotteur32 | ||
étapes/is_first | Tenseur | bouffon | ||
étapes/est_dernier | Tenseur | bouffon | ||
étapes/is_terminal | Tenseur | bouffon | ||
étapes/observation | Tenseur | (17,) | flotteur32 | |
étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :
locomotion/humanoid_sac_15M_single_policy_stochastic
Description de la configuration : Ensemble de données généré par un agent SAC formé pour 15 millions d'étapes pour Humanoid.
Taille du téléchargement :
192.78 MiB
Taille de l'ensemble de données :
300.94 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'train' | 200 |
- Structure des fonctionnalités :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(17,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(376,), dtype=float32),
'reward': float32,
}),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
pas | Base de données | |||
étapes/actions | Tenseur | (17,) | flotteur32 | |
étapes/remise | Tenseur | flotteur32 | ||
étapes/is_first | Tenseur | bouffon | ||
étapes/est_dernier | Tenseur | bouffon | ||
étapes/is_terminal | Tenseur | bouffon | ||
étapes/observation | Tenseur | (376,) | flotteur32 | |
étapes/récompense | Tenseur | flotteur32 |
- Exemples ( tfds.as_dataframe ) :