cmu_play_fusion

  • وصف :

يلعب الروبوت بثلاثة مشاهد معقدة: شواية تحتوي على العديد من أدوات الطهي مثل محمصة الخبز والمقلاة وما إلى ذلك. يجب عليه الاختيار والفتح والمكان والإغلاق. يجب عليها إعداد الطاولة، وتحريك الأطباق، والأكواب، والأواني. ويجب وضع الأطباق في الحوض وغسالة الأطباق وأكواب اليد وما إلى ذلك.

ينقسم أمثلة
'train' 576
  • هيكل الميزة :
FeaturesDict({
    'episode_metadata': FeaturesDict({
        'file_path': Text(shape=(), dtype=string),
    }),
    'steps': Dataset({
        'action': Tensor(shape=(9,), dtype=float32, description=Robot action, consists of [7x delta eef (pos + quat), 1x gripper open/close (binary), 1x terminate episode].),
        'discount': Scalar(shape=(), dtype=float32, description=Discount if provided, default to 1.),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'language_embedding': Tensor(shape=(512,), dtype=float32, description=Kona language embedding. See https://tfhub.dev/google/universal-sentence-encoder-large/5),
        'language_instruction': Text(shape=(), dtype=string),
        'observation': FeaturesDict({
            'image': Image(shape=(128, 128, 3), dtype=uint8, description=Main camera RGB observation.),
            'state': Tensor(shape=(8,), dtype=float32, description=Robot state, consists of [7x robot joint angles, 1x gripper position.),
        }),
        'reward': Scalar(shape=(), dtype=float32, description=Reward if provided, 1 on final step for demos.),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
الحلقة_البيانات الوصفية المميزاتDict
Episode_metadata/file_path نص خيط المسار إلى ملف البيانات الأصلي.
خطوات مجموعة البيانات
الخطوات/الإجراء الموتر (9،) float32 عمل الروبوت، يتكون من [7x delta eef (pos + quat)، 1x قابض فتح/إغلاق (ثنائي)، 1x إنهاء الحلقة].
الخطوات/الخصم العددية float32 الخصم إذا تم توفيره، الافتراضي هو 1.
الخطوات/is_first الموتر منطقي
الخطوات/is_last الموتر منطقي
الخطوات/is_terminal الموتر منطقي
الخطوات/language_embedding الموتر (512،) float32 تضمين لغة كونا. راجع https://tfhub.dev/google/universal-sentence-encoder-large/5
الخطوات/language_instruction نص خيط تعليم اللغة.
الخطوات/الملاحظة المميزاتDict
الخطوات/الملاحظة/الصورة صورة (128، 128، 3) uint8 مراقبة الكاميرا الرئيسية RGB.
الخطوات/الملاحظة/الحالة الموتر (8،) float32 حالة الروبوت، تتكون من [7x زوايا مفصل الروبوت، 1x موضع القابض.
خطوات/مكافأة العددية float32 مكافأة إذا تم توفيرها، 1 في الخطوة النهائية للعروض التوضيحية.
  • الاقتباس :
@inproceedings{chen2023playfusion,
  title={PlayFusion: Skill Acquisition via Diffusion from Language-Annotated Play},
  author={Chen, Lili and Bahl, Shikhar and Pathak, Deepak},
  booktitle={CoRL},
  year={2023}
}