maniskill_dataset_converted_externally_to_rlds

  • Description :

Franka simulé effectuant diverses tâches de manipulation

Diviser Exemples
'train' 30 213
  • Structure des fonctionnalités :
FeaturesDict({
    'episode_metadata': FeaturesDict({
        'episode_id': Text(shape=(), dtype=string),
        'file_path': Text(shape=(), dtype=string),
    }),
    'steps': Dataset({
        'action': Tensor(shape=(7,), dtype=float32, description=Robot action, consists of [3x end effector delta target position, 3x end effector delta target orientation in axis-angle format, 1x gripper target position (mimic for two fingers)]. For delta target position, an action of -1 maps to a robot movement of -0.1m, and action of 1 maps to a movement of 0.1m. For delta target orientation, its encoded angle is mapped to a range of [-0.1rad, 0.1rad] for robot execution. For example, an action of [1, 0, 0] means rotating along the x-axis by 0.1 rad. For gripper target position, an action of -1 means close, and an action of 1 means open.),
        'discount': Scalar(shape=(), dtype=float32, description=Discount if provided, default to 1.),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'language_embedding': Tensor(shape=(512,), dtype=float32, description=Kona language embedding. See https://tfhub.dev/google/universal-sentence-encoder-large/5),
        'language_instruction': Text(shape=(), dtype=string),
        'observation': FeaturesDict({
            'base_pose': Tensor(shape=(7,), dtype=float32, description=Robot base pose in the world frame, consists of [x, y, z, qw, qx, qy, qz]. The first three dimensions represent xyz positions in meters. The last four dimensions are the quaternion representation of rotation.),
            'depth': Image(shape=(256, 256, 1), dtype=uint16, description=Main camera Depth observation. Divide the depth value by 2**10 to get the depth in meters.),
            'image': Image(shape=(256, 256, 3), dtype=uint8, description=Main camera RGB observation.),
            'main_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32, description=Transformation from the main camera frame to the world frame in OpenGL/Blender convention.),
            'main_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32, description=Main camera extrinsic matrix in OpenCV convention.),
            'main_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32, description=Main camera intrinsic matrix in OpenCV convention.),
            'state': Tensor(shape=(18,), dtype=float32, description=Robot state, consists of [7x robot joint angles, 2x gripper position, 7x robot joint angle velocity, 2x gripper velocity]. Angle in radians, position in meters.),
            'target_object_or_part_final_pose': Tensor(shape=(7,), dtype=float32, description=The final pose towards which the target object or object part needs be manipulated, consists of [x, y, z, qw, qx, qy, qz]. The pose is represented in the world frame. An episode is considered successful if the target object or object part is manipulated to this pose.),
            'target_object_or_part_final_pose_valid': Tensor(shape=(7,), dtype=uint8, description=Whether each dimension of target_object_or_part_final_pose is valid in an environment. 1 = valid; 0 = invalid (in which case one should ignore the corresponding dimensions in target_object_or_part_final_pose). "Invalid" means that there is no success check on the final pose of target object or object part in the corresponding dimensions.),
            'target_object_or_part_initial_pose': Tensor(shape=(7,), dtype=float32, description=The initial pose of the target object or object part to be manipulated, consists of [x, y, z, qw, qx, qy, qz]. The pose is represented in the world frame. This variable is used to specify the target object or object part when multiple objects or object parts are present in an environment),
            'target_object_or_part_initial_pose_valid': Tensor(shape=(7,), dtype=uint8, description=Whether each dimension of target_object_or_part_initial_pose is valid in an environment. 1 = valid; 0 = invalid (in which case one should ignore the corresponding dimensions in target_object_or_part_initial_pose).),
            'tcp_pose': Tensor(shape=(7,), dtype=float32, description=Robot tool-center-point pose in the world frame, consists of [x, y, z, qw, qx, qy, qz]. Tool-center-point is the center between the two gripper fingers.),
            'wrist_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32, description=Transformation from the wrist camera frame to the world frame in OpenGL/Blender convention.),
            'wrist_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32, description=Wrist camera extrinsic matrix in OpenCV convention.),
            'wrist_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32, description=Wrist camera intrinsic matrix in OpenCV convention.),
            'wrist_depth': Image(shape=(256, 256, 1), dtype=uint16, description=Wrist camera Depth observation. Divide the depth value by 2**10 to get the depth in meters.),
            'wrist_image': Image(shape=(256, 256, 3), dtype=uint8, description=Wrist camera RGB observation.),
        }),
        'reward': Scalar(shape=(), dtype=float32, description=Reward if provided, 1 on final step for demos.),
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
épisode_métadonnées FonctionnalitésDict
épisode_metadata/episode_id Texte chaîne ID de l'épisode.
épisode_metadata/file_path Texte chaîne Chemin d'accès au fichier de données d'origine.
mesures Ensemble de données
étapes/actions Tenseur (7,) flotteur32 L'action du robot consiste en [3x positions cibles delta de l'effecteur terminal, 3x orientation de la cible delta de l'effecteur terminal au format axe-angle, 1x position cible de la pince (imitation pour deux doigts)]. Pour la position cible delta, une action de -1 correspond à un mouvement du robot de -0,1 m et une action de 1 correspond à un mouvement de 0,1 m. Pour l'orientation de la cible delta, son angle codé est mappé sur une plage de [-0,1rad, 0,1rad] pour l'exécution du robot. Par exemple, une action de [1, 0, 0] signifie une rotation le long de l'axe des x de 0,1 rad. Pour la position cible de la pince, une action de -1 signifie une fermeture et une action de 1 signifie une ouverture.
étapes/remise Scalaire flotteur32 Remise si fournie, par défaut à 1.
étapes/is_first Tenseur bouffon
étapes/est_dernier Tenseur bouffon
étapes/is_terminal Tenseur bouffon
étapes/langue_embedding Tenseur (512,) flotteur32 Intégration du langage Kona. Voir https://tfhub.dev/google/universal-sentence-encoder-large/5
étapes/instruction_langue Texte chaîne Enseignement des langues.
étapes/observation FonctionnalitésDict
étapes/observation/base_pose Tenseur (7,) flotteur32 Pose de base du robot dans le cadre du monde, composée de [x, y, z, qw, qx, qy, qz]. Les trois premières dimensions représentent les positions xyz en mètres. Les quatre dernières dimensions sont la représentation quaternion de la rotation.
étapes/observation/profondeur Image (256, 256, 1) uint16 Caméra principale Observation de la profondeur. Divisez la valeur de profondeur par 2**10 pour obtenir la profondeur en mètres.
étapes/observation/image Image (256, 256, 3) uint8 Observation RVB de la caméra principale.
étapes/observation/main_camera_cam2world_gl Tenseur (4, 4) flotteur32 Transformation du cadre principal de la caméra en cadre mondial selon la convention OpenGL/Blender.
étapes/observation/main_camera_extrinsic_cv Tenseur (4, 4) flotteur32 Matrice extrinsèque de la caméra principale dans la convention OpenCV.
étapes/observation/main_camera_intrinsic_cv Tenseur (3, 3) flotteur32 Matrice intrinsèque de la caméra principale dans la convention OpenCV.
étapes/observation/état Tenseur (18,) flotteur32 L'état du robot comprend [7x angles d'articulation du robot, 2x position de la pince, 7x vitesse de l'angle de l'articulation du robot, 2x vitesse de la pince]. Angle en radians, position en mètres.
étapes/observation/target_object_or_part_final_pose Tenseur (7,) flotteur32 La pose finale vers laquelle l'objet cible ou la partie de l'objet doit être manipulée se compose de [x, y, z, qw, qx, qy, qz]. La pose est représentée dans le cadre du monde. Un épisode est considéré comme réussi si l'objet cible ou la partie de l'objet est manipulé dans cette pose.
étapes/observation/target_object_or_part_final_pose_valid Tenseur (7,) uint8 Indique si chaque dimension de target_object_or_part_final_pose est valide dans un environnement. 1 = valide ; 0 = invalide (auquel cas il faut ignorer les dimensions correspondantes dans target_object_or_part_final_pose). "Invalide" signifie qu'il n'y a pas de contrôle de réussite sur la pose finale de l'objet cible ou de la partie d'objet dans les dimensions correspondantes.
étapes/observation/target_object_or_part_initial_pose Tenseur (7,) flotteur32 La pose initiale de l'objet cible ou de la partie d'objet à manipuler se compose de [x, y, z, qw, qx, qy, qz]. La pose est représentée dans le cadre du monde. Cette variable est utilisée pour spécifier l'objet ou la partie d'objet cible lorsque plusieurs objets ou parties d'objet sont présents dans un environnement.
étapes/observation/target_object_or_part_initial_pose_valid Tenseur (7,) uint8 Indique si chaque dimension de target_object_or_part_initial_pose est valide dans un environnement. 1 = valide ; 0 = invalide (auquel cas il faut ignorer les dimensions correspondantes dans target_object_or_part_initial_pose).
étapes/observation/tcp_pose Tenseur (7,) flotteur32 La pose du point central de l'outil du robot dans le cadre du monde se compose de [x, y, z, qw, qx, qy, qz]. Le point central de l'outil est le centre entre les deux doigts de préhension.
étapes/observation/wrist_camera_cam2world_gl Tenseur (4, 4) flotteur32 Transformation du cadre de la caméra-bracelet au cadre mondial dans la convention OpenGL/Blender.
étapes/observation/wrist_camera_extrinsic_cv Tenseur (4, 4) flotteur32 Matrice extrinsèque de la caméra-bracelet dans la convention OpenCV.
étapes/observation/wrist_camera_intrinsic_cv Tenseur (3, 3) flotteur32 Matrice intrinsèque de la caméra-bracelet dans la convention OpenCV.
étapes/observation/profondeur_poignet Image (256, 256, 1) uint16 Caméra-bracelet Observation de la profondeur. Divisez la valeur de profondeur par 2**10 pour obtenir la profondeur en mètres.
étapes/observation/image_poignet Image (256, 256, 3) uint8 Observation RVB par caméra-bracelet.
étapes/récompense Scalaire flotteur32 Récompense si fournie, 1 à la dernière étape pour les démos.
  • Citation :
@inproceedings{gu2023maniskill2,
  title={ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills},
  author={Gu, Jiayuan and Xiang, Fanbo and Li, Xuanlin and Ling, Zhan and Liu, Xiqiang and Mu, Tongzhou and Tang, Yihe and Tao, Stone and Wei, Xinyue and Yao, Yunchao and Yuan, Xiaodi and Xie, Pengwei and Huang, Zhiao and Chen, Rui and Su, Hao},
  booktitle={International Conference on Learning Representations},
  year={2023}
}