cmu_play_fusion

  • Description :

Le robot joue avec 3 scènes complexes : un grill avec de nombreux objets de cuisson comme un grille-pain, une poêle, etc. Il doit saisir, ouvrir, placer, fermer. Il doit dresser une table, déplacer des assiettes, des tasses, des ustensiles. Et il faut placer la vaisselle dans l'évier, le lave-vaisselle, les gobelets, etc.

Diviser Exemples
'train' 576
  • Structure des fonctionnalités :
FeaturesDict({
    'episode_metadata': FeaturesDict({
        'file_path': Text(shape=(), dtype=string),
    }),
    'steps': Dataset({
        'action': Tensor(shape=(9,), dtype=float32, description=Robot action, consists of [7x delta eef (pos + quat), 1x gripper open/close (binary), 1x terminate episode].),
        'discount': Scalar(shape=(), dtype=float32, description=Discount if provided, default to 1.),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'language_embedding': Tensor(shape=(512,), dtype=float32, description=Kona language embedding. See https://tfhub.dev/google/universal-sentence-encoder-large/5),
        'language_instruction': Text(shape=(), dtype=string),
        'observation': FeaturesDict({
            'image': Image(shape=(128, 128, 3), dtype=uint8, description=Main camera RGB observation.),
            'state': Tensor(shape=(8,), dtype=float32, description=Robot state, consists of [7x robot joint angles, 1x gripper position.),
        }),
        'reward': Scalar(shape=(), dtype=float32, description=Reward if provided, 1 on final step for demos.),
    }),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
épisode_métadonnées FonctionnalitésDict
épisode_metadata/file_path Texte chaîne Chemin d'accès au fichier de données d'origine.
mesures Ensemble de données
étapes/actions Tenseur (9,) flotteur32 L'action du robot consiste en [7x delta eef (pos + quat), 1x ouverture/fermeture de la pince (binaire), 1x terminer l'épisode].
étapes/remise Scalaire flotteur32 Remise si fournie, par défaut à 1.
étapes/is_first Tenseur bouffon
étapes/est_dernier Tenseur bouffon
étapes/is_terminal Tenseur bouffon
étapes/langue_embedding Tenseur (512,) flotteur32 Intégration du langage Kona. Voir https://tfhub.dev/google/universal-sentence-encoder-large/5
étapes/instruction_langue Texte chaîne Enseignement des langues.
étapes/observation FonctionnalitésDict
étapes/observation/image Image (128, 128, 3) uint8 Observation RVB de la caméra principale.
étapes/observation/état Tenseur (8,) flotteur32 L'état du robot comprend [7x angles d'articulation du robot, 1x position de la pince.
étapes/récompense Scalaire flotteur32 Récompense si fournie, 1 à la dernière étape pour les démos.
  • Citation :
@inproceedings{chen2023playfusion,
  title={PlayFusion: Skill Acquisition via Diffusion from Language-Annotated Play},
  author={Chen, Lili and Bahl, Shikhar and Pathak, Deepak},
  booktitle={CoRL},
  year={2023}
}