locomotion

  • Description :

Les ensembles de données ont été créés avec un agent SAC formé à la récompense environnementale des tâches de locomotion MuJoCo. Ces ensembles de données sont utilisés dans What Matters for Adversarial Imitation Learning ? Orsini et coll. 2021 .

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic (configuration par défaut)

  • Description de la configuration : Ensemble de données généré par un agent SAC formé pour 1 million d'étapes pour Ant.

  • Taille du téléchargement : 6.49 MiB

  • Taille de l'ensemble de données : 23.02 MiB

  • Mise en cache automatique ( documentation ) : Oui

  • Divisions :

Diviser Exemples
'train' 50
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (8,) flotteur32
étapes/remise Tenseur flotteur32
étapes/is_first Tenseur bouffon
étapes/est_dernier Tenseur bouffon
étapes/is_terminal Tenseur bouffon
étapes/observation Tenseur (111,) flotteur32
étapes/récompense Tenseur flotteur32

locomotion/hopper_sac_1M_single_policy_stochastic

  • Description de la configuration : Ensemble de données généré par un agent SAC formé pour 1 million d'étapes pour Hopper.

  • Taille du téléchargement : 2.26 MiB

  • Taille de l'ensemble de données : 2.62 MiB

  • Mise en cache automatique ( documentation ) : Oui

  • Divisions :

Diviser Exemples
'train' 50
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (3,) flotteur32
étapes/remise Tenseur flotteur32
étapes/is_first Tenseur bouffon
étapes/est_dernier Tenseur bouffon
étapes/is_terminal Tenseur bouffon
étapes/observation Tenseur (11,) flotteur32
étapes/récompense Tenseur flotteur32

locomotion/halfcheetah_sac_1M_single_policy_stochastic

  • Description de la configuration : Ensemble de données généré par un agent SAC formé pour 1 million d'étapes pour HalfCheetah.

  • Taille du téléchargement : 4.49 MiB

  • Taille de l'ensemble de données : 4.93 MiB

  • Mise en cache automatique ( documentation ) : Oui

  • Divisions :

Diviser Exemples
'train' 50
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (6,) flotteur32
étapes/remise Tenseur flotteur32
étapes/is_first Tenseur bouffon
étapes/est_dernier Tenseur bouffon
étapes/is_terminal Tenseur bouffon
étapes/observation Tenseur (17,) flotteur32
étapes/récompense Tenseur flotteur32

locomotion/walker2d_sac_1M_single_policy_stochastic

  • Description de la configuration : Ensemble de données généré par un agent SAC formé pour 1 million d'étapes pour Walker2d.

  • Taille du téléchargement : 4.35 MiB

  • Taille de l'ensemble de données : 4.91 MiB

  • Mise en cache automatique ( documentation ) : Oui

  • Divisions :

Diviser Exemples
'train' 50
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (6,) flotteur32
étapes/remise Tenseur flotteur32
étapes/is_first Tenseur bouffon
étapes/est_dernier Tenseur bouffon
étapes/is_terminal Tenseur bouffon
étapes/observation Tenseur (17,) flotteur32
étapes/récompense Tenseur flotteur32

locomotion/humanoid_sac_15M_single_policy_stochastic

  • Description de la configuration : Ensemble de données généré par un agent SAC formé pour 15 millions d'étapes pour Humanoid.

  • Taille du téléchargement : 192.78 MiB

  • Taille de l'ensemble de données : 300.94 MiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'train' 200
  • Structure des fonctionnalités :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
pas Base de données
étapes/actions Tenseur (17,) flotteur32
étapes/remise Tenseur flotteur32
étapes/is_first Tenseur bouffon
étapes/est_dernier Tenseur bouffon
étapes/is_terminal Tenseur bouffon
étapes/observation Tenseur (376,) flotteur32
étapes/récompense Tenseur flotteur32