TFDS supporte désormais le format Croissant 🥐 ! Lisez la documentation pour en savoir plus.

Cette page a été traduite par l'API Cloud Translation.

d4rl_mujoco_hopper

Description :

D4RL est une référence open source pour l'apprentissage par renforcement hors ligne. Il fournit des environnements et des ensembles de données standardisés pour les algorithmes de formation et d’analyse comparative.

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.

Description de la configuration : Voir plus de détails sur la tâche et ses versions sur https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym
Page d'accueil : https://sites.google.com/view/d4rl-anonymous
Code source : tfds.d4rl.d4rl_mujoco_hopper.D4rlMujocoHopper
Versions :
- 1.0.0 : Version initiale.
- 1.1.0 : Ajout de is_last.
- 1.2.0 (par défaut) : Mis à jour pour prendre en compte l'observation suivante.
Clés supervisées (Voir doc as_supervised ) : None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_mujoco_hopper/v0-expert (configuration par défaut)

Taille du téléchargement : 51.56 MiB
Taille de l'ensemble de données : 64.10 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	1 029

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v0-medium

Taille du téléchargement : 51.74 MiB
Taille de l'ensemble de données : 64.68 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	3 064

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v0-medium-expert

Taille du téléchargement : 62.01 MiB
Taille de l'ensemble de données : 77.25 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	2 277

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v0-mixed

Taille du téléchargement : 10.48 MiB
Taille de l'ensemble de données : 13.15 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	1 250

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v0-random

Taille du téléchargement : 51.83 MiB
Taille de l'ensemble de données : 66.06 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	8 793

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v1-expert

Taille du téléchargement : 93.19 MiB
Taille de l'ensemble de données : 608.03 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 836

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 11), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(6,), dtype=float32),
            'qvel': Tensor(shape=(6,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 11)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(3,)	flotteur32
politique/last_fc/poids	Tenseur	(3, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(3,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(3, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(6,)	flotteur32
étapes/infos/qvel	Tenseur	(6,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v1-medium

Taille du téléchargement : 92.03 MiB
Taille du jeu de données : 1.78 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	6 328

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 11), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(6,), dtype=float32),
            'qvel': Tensor(shape=(6,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 11)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(3,)	flotteur32
politique/last_fc/poids	Tenseur	(3, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(3,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(3, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(6,)	flotteur32
étapes/infos/qvel	Tenseur	(6,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v1-medium-expert

Taille du téléchargement : 184.59 MiB
Taille de l'ensemble de données : 230.24 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	8 163

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(6,), dtype=float32),
            'qvel': Tensor(shape=(6,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(6,)	flotteur32
étapes/infos/qvel	Tenseur	(6,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v1-medium-replay

Taille du téléchargement : 55.65 MiB
Taille de l'ensemble de données : 34.78 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	1 151

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float64),
        'reward': float64,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur64
étapes/remise	Tenseur		flotteur64
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(6,)	flotteur64
étapes/infos/qvel	Tenseur	(6,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur64
étapes/récompense	Tenseur		flotteur64

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v1-full-replay

Taille du téléchargement : 183.32 MiB
Taille de l'ensemble de données : 114.78 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	2 907

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float64),
        'reward': float64,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur64
étapes/remise	Tenseur		flotteur64
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(6,)	flotteur64
étapes/infos/qvel	Tenseur	(6,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur64
étapes/récompense	Tenseur		flotteur64

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v1-random

Taille du téléchargement : 91.11 MiB
Taille de l'ensemble de données : 130.73 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	45 265

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(6,), dtype=float32),
            'qvel': Tensor(shape=(6,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(6,)	flotteur32
étapes/infos/qvel	Tenseur	(6,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v2-expert

Taille du téléchargement : 145.37 MiB
Taille de l'ensemble de données : 390.40 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 028

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 11), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 11)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(3,)	flotteur32
politique/last_fc/poids	Tenseur	(3, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(3,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(3, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(6,)	flotteur64
étapes/infos/qvel	Tenseur	(6,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v2-full-replay

Taille du téléchargement : 179.29 MiB
Taille de l'ensemble de données : 115.04 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	3 515

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(6,)	flotteur64
étapes/infos/qvel	Tenseur	(6,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v2-medium

Taille du téléchargement : 145.68 MiB
Taille de l'ensemble de données : 702.57 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	2 187

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 11), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(3,), dtype=float32),
            'weight': Tensor(shape=(3, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 11)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(3,)	flotteur32
politique/last_fc/poids	Tenseur	(3, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(3,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(3, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(6,)	flotteur64
étapes/infos/qvel	Tenseur	(6,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v2-medium-expert

Taille du téléchargement : 290.43 MiB
Taille de l'ensemble de données : 228.28 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	3 214

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(6,)	flotteur64
étapes/infos/qvel	Tenseur	(6,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v2-medium-replay

Taille du téléchargement : 72.34 MiB
Taille de l'ensemble de données : 46.51 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	2 041

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(6,)	flotteur64
étapes/infos/qvel	Tenseur	(6,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_hopper/v2-random

Taille du téléchargement : 145.46 MiB
Taille de l'ensemble de données : 130.72 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	45 240

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(6,), dtype=float64),
            'qvel': Tensor(shape=(6,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(3,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(6,)	flotteur64
étapes/infos/qvel	Tenseur	(6,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(11,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :