TFDS supporte désormais le format Croissant 🥐 ! Lisez la documentation pour en savoir plus.

Cette page a été traduite par l'API Cloud Translation.

d4rl_mujoco_ant

Description :

D4RL est une référence open source pour l'apprentissage par renforcement hors ligne. Il fournit des environnements et des ensembles de données standardisés pour les algorithmes de formation et d’analyse comparative.

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.

Description de la configuration : Voir plus de détails sur la tâche et ses versions sur https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym
Page d'accueil : https://sites.google.com/view/d4rl-anonymous
Code source : tfds.d4rl.d4rl_mujoco_ant.D4rlMujocoAnt
Versions :
- 1.0.0 : Version initiale.
- 1.1.0 : Ajout de is_last.
- 1.2.0 (par défaut) : Mis à jour pour prendre en compte l'observation suivante.
Clés supervisées (Voir doc as_supervised ) : None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_mujoco_ant/v0-expert (configuration par défaut)

Taille du téléchargement : 131.34 MiB
Taille de l'ensemble de données : 464.94 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 288

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v0-medium

Taille du téléchargement : 131.39 MiB
Taille de l'ensemble de données : 464.78 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 122

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v0-medium-expert

Taille du téléchargement : 262.73 MiB
Taille de l'ensemble de données : 929.71 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	2 410

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v0-mixed

Taille du téléchargement : 104.63 MiB
Taille de l'ensemble de données : 464.93 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 320

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v0-random

Taille du téléchargement : 139.50 MiB
Taille de l'ensemble de données : 464.97 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 377

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v1-expert

Taille du téléchargement : 220.72 MiB
Taille de l'ensemble de données : 968.63 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 033

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 111), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(15,), dtype=float32),
            'qvel': Tensor(shape=(14,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 111)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(8,)	flotteur32
politique/last_fc/poids	Tenseur	(8, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(8,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(8, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(15,)	flotteur32
étapes/infos/qvel	Tenseur	(14,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v1-medium

Taille du téléchargement : 222.39 MiB
Taille de l'ensemble de données : 1023.71 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 179

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 111), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(15,), dtype=float32),
            'qvel': Tensor(shape=(14,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 111)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(8,)	flotteur32
politique/last_fc/poids	Tenseur	(8, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(8,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(8, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(15,)	flotteur32
étapes/infos/qvel	Tenseur	(14,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v1-medium-expert

Taille du téléchargement : 442.25 MiB
Taille du jeu de données : 1.13 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	2 211

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(15,), dtype=float32),
            'qvel': Tensor(shape=(14,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(15,)	flotteur32
étapes/infos/qvel	Tenseur	(14,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v1-medium-replay

Taille du téléchargement : 132.05 MiB
Taille de l'ensemble de données : 175.27 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	485

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float64),
        'reward': float64,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur64
étapes/remise	Tenseur		flotteur64
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(15,)	flotteur64
étapes/infos/qvel	Tenseur	(14,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur64
étapes/récompense	Tenseur		flotteur64

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v1-full-replay

Taille du téléchargement : 437.57 MiB
Taille de l'ensemble de données : 580.09 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 319

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float64),
        'reward': float64,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur64
étapes/remise	Tenseur		flotteur64
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(15,)	flotteur64
étapes/infos/qvel	Tenseur	(14,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur64
étapes/récompense	Tenseur		flotteur64

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v1-random

Taille du téléchargement : 225.18 MiB
Taille de l'ensemble de données : 583.83 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	5 741

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(15,), dtype=float32),
            'qvel': Tensor(shape=(14,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur32
étapes/infos/qpos	Tenseur	(15,)	flotteur32
étapes/infos/qvel	Tenseur	(14,)	flotteur32
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v2-expert

Taille du téléchargement : 355.94 MiB
Taille de l'ensemble de données : 969.38 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 035

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 111), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 111)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(8,)	flotteur32
politique/last_fc/poids	Tenseur	(8, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(8,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(8, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(15,)	flotteur64
étapes/infos/qvel	Tenseur	(14,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v2-full-replay

Taille du téléchargement : 428.57 MiB
Taille de l'ensemble de données : 580.09 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 319

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(15,)	flotteur64
étapes/infos/qvel	Tenseur	(14,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v2-medium

Taille du téléchargement : 358.81 MiB
Taille du jeu de données : 1.01 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	1 203

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 111), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
politique	FonctionnalitésDict
politique/fc0	FonctionnalitésDict
politique/fc0/biais	Tenseur	(256,)	flotteur32
politique/fc0/poids	Tenseur	(256, 111)	flotteur32
politique/fc1	FonctionnalitésDict
politique/fc1/biais	Tenseur	(256,)	flotteur32
politique/fc1/poids	Tenseur	(256, 256)	flotteur32
politique/last_fc	FonctionnalitésDict
politique/last_fc/bias	Tenseur	(8,)	flotteur32
politique/last_fc/poids	Tenseur	(8, 256)	flotteur32
politique/last_fc_log_std	FonctionnalitésDict
politique/last_fc_log_std/bias	Tenseur	(8,)	flotteur32
politique/last_fc_log_std/poids	Tenseur	(8, 256)	flotteur32
politique/non-linéarité	Tenseur		chaîne
politique/distribution_de sortie	Tenseur		chaîne
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(15,)	flotteur64
étapes/infos/qvel	Tenseur	(14,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v2-medium-expert

Taille du téléchargement : 713.67 MiB
Taille du jeu de données : 1.13 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	2 237

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(15,)	flotteur64
étapes/infos/qvel	Tenseur	(14,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v2-medium-replay

Taille du téléchargement : 130.16 MiB
Taille de l'ensemble de données : 175.27 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	485

Structure des fonctionnalités :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
algorithme	Tenseur		chaîne
itération	Tenseur		int32
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(15,)	flotteur64
étapes/infos/qvel	Tenseur	(14,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :

d4rl_mujoco_ant/v2-random

Taille du téléchargement : 366.66 MiB
Taille de l'ensemble de données : 583.90 MiB
Mise en cache automatique ( documentation ) : Non
Divisions :

Diviser	Exemples
`'train'`	5 822

Structure des fonctionnalités :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D
	FonctionnalitésDict
pas	Base de données
étapes/actions	Tenseur	(8,)	flotteur32
étapes/remise	Tenseur		flotteur32
étapes/infos	FonctionnalitésDict
étapes/infos/action_log_probs	Tenseur		flotteur64
étapes/infos/qpos	Tenseur	(15,)	flotteur64
étapes/infos/qvel	Tenseur	(14,)	flotteur64
étapes/is_first	Tenseur		bouffon
étapes/est_dernier	Tenseur		bouffon
étapes/is_terminal	Tenseur		bouffon
étapes/observation	Tenseur	(111,)	flotteur32
étapes/récompense	Tenseur		flotteur32

Exemples ( tfds.as_dataframe ) :