maniskill_dataset_converted_externally_to_rlds

  • বর্ণনা :

সিমুলেটেড ফ্রাঙ্কা বিভিন্ন ম্যানিপুলেশন কাজ সম্পাদন করছে

বিভক্ত উদাহরণ
'train' 30,213
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_metadata': FeaturesDict({
        'episode_id': Text(shape=(), dtype=string),
        'file_path': Text(shape=(), dtype=string),
    }),
    'steps': Dataset({
        'action': Tensor(shape=(7,), dtype=float32, description=Robot action, consists of [3x end effector delta target position, 3x end effector delta target orientation in axis-angle format, 1x gripper target position (mimic for two fingers)]. For delta target position, an action of -1 maps to a robot movement of -0.1m, and action of 1 maps to a movement of 0.1m. For delta target orientation, its encoded angle is mapped to a range of [-0.1rad, 0.1rad] for robot execution. For example, an action of [1, 0, 0] means rotating along the x-axis by 0.1 rad. For gripper target position, an action of -1 means close, and an action of 1 means open.),
        'discount': Scalar(shape=(), dtype=float32, description=Discount if provided, default to 1.),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'language_embedding': Tensor(shape=(512,), dtype=float32, description=Kona language embedding. See https://tfhub.dev/google/universal-sentence-encoder-large/5),
        'language_instruction': Text(shape=(), dtype=string),
        'observation': FeaturesDict({
            'base_pose': Tensor(shape=(7,), dtype=float32, description=Robot base pose in the world frame, consists of [x, y, z, qw, qx, qy, qz]. The first three dimensions represent xyz positions in meters. The last four dimensions are the quaternion representation of rotation.),
            'depth': Image(shape=(256, 256, 1), dtype=uint16, description=Main camera Depth observation. Divide the depth value by 2**10 to get the depth in meters.),
            'image': Image(shape=(256, 256, 3), dtype=uint8, description=Main camera RGB observation.),
            'main_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32, description=Transformation from the main camera frame to the world frame in OpenGL/Blender convention.),
            'main_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32, description=Main camera extrinsic matrix in OpenCV convention.),
            'main_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32, description=Main camera intrinsic matrix in OpenCV convention.),
            'state': Tensor(shape=(18,), dtype=float32, description=Robot state, consists of [7x robot joint angles, 2x gripper position, 7x robot joint angle velocity, 2x gripper velocity]. Angle in radians, position in meters.),
            'target_object_or_part_final_pose': Tensor(shape=(7,), dtype=float32, description=The final pose towards which the target object or object part needs be manipulated, consists of [x, y, z, qw, qx, qy, qz]. The pose is represented in the world frame. An episode is considered successful if the target object or object part is manipulated to this pose.),
            'target_object_or_part_final_pose_valid': Tensor(shape=(7,), dtype=uint8, description=Whether each dimension of target_object_or_part_final_pose is valid in an environment. 1 = valid; 0 = invalid (in which case one should ignore the corresponding dimensions in target_object_or_part_final_pose). "Invalid" means that there is no success check on the final pose of target object or object part in the corresponding dimensions.),
            'target_object_or_part_initial_pose': Tensor(shape=(7,), dtype=float32, description=The initial pose of the target object or object part to be manipulated, consists of [x, y, z, qw, qx, qy, qz]. The pose is represented in the world frame. This variable is used to specify the target object or object part when multiple objects or object parts are present in an environment),
            'target_object_or_part_initial_pose_valid': Tensor(shape=(7,), dtype=uint8, description=Whether each dimension of target_object_or_part_initial_pose is valid in an environment. 1 = valid; 0 = invalid (in which case one should ignore the corresponding dimensions in target_object_or_part_initial_pose).),
            'tcp_pose': Tensor(shape=(7,), dtype=float32, description=Robot tool-center-point pose in the world frame, consists of [x, y, z, qw, qx, qy, qz]. Tool-center-point is the center between the two gripper fingers.),
            'wrist_camera_cam2world_gl': Tensor(shape=(4, 4), dtype=float32, description=Transformation from the wrist camera frame to the world frame in OpenGL/Blender convention.),
            'wrist_camera_extrinsic_cv': Tensor(shape=(4, 4), dtype=float32, description=Wrist camera extrinsic matrix in OpenCV convention.),
            'wrist_camera_intrinsic_cv': Tensor(shape=(3, 3), dtype=float32, description=Wrist camera intrinsic matrix in OpenCV convention.),
            'wrist_depth': Image(shape=(256, 256, 1), dtype=uint16, description=Wrist camera Depth observation. Divide the depth value by 2**10 to get the depth in meters.),
            'wrist_image': Image(shape=(256, 256, 3), dtype=uint8, description=Wrist camera RGB observation.),
        }),
        'reward': Scalar(shape=(), dtype=float32, description=Reward if provided, 1 on final step for demos.),
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
episode_metadata ফিচারসডিক্ট
episode_metadata/episode_id পাঠ্য স্ট্রিং পর্ব আইডি।
episode_metadata/file_path পাঠ্য স্ট্রিং মূল ডেটা ফাইলের পথ।
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (৭,) float32 রোবট অ্যাকশনের মধ্যে রয়েছে [3x এন্ড ইফেক্টর ডেল্টা টার্গেট পজিশন, 3x এন্ড ইফেক্টর ডেল্টা টার্গেট অরিয়েন্টেশন অক্ষ-কোণ বিন্যাসে, 1x গ্রিপার টার্গেট পজিশন (দুই আঙ্গুলের জন্য নকল)]। ডেল্টা টার্গেট পজিশনের জন্য, -0.1m এর একটি রোবট মুভমেন্টের জন্য -1 ম্যাপের একটি অ্যাকশন এবং 0.1m গতিতে 1টি ম্যাপের অ্যাকশন। ডেল্টা টার্গেট ওরিয়েন্টেশনের জন্য, রোবট এক্সিকিউশনের জন্য এর এনকোড করা কোণটি [-0.1rad, 0.1rad] এর রেঞ্জে ম্যাপ করা হয়। উদাহরণস্বরূপ, [1, 0, 0] এর একটি ক্রিয়া মানে x-অক্ষ বরাবর 0.1 rad দ্বারা ঘোরানো। গ্রিপার টার্গেট পজিশনের জন্য, -1-এর অ্যাকশন মানে বন্ধ, এবং 1-এর অ্যাকশন মানে খোলা।
পদক্ষেপ/ছাড় স্কেলার float32 ডিসকাউন্ট দেওয়া হলে, ডিফল্ট 1.
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/ভাষা_এম্বেডিং টেনসর (512,) float32 কোন ভাষা এম্বেডিং. https://tfhub.dev/google/universal-sentence-encoder-large/5 দেখুন
পদক্ষেপ/ভাষা_নির্দেশ পাঠ্য স্ট্রিং ভাষার নির্দেশনা।
পদক্ষেপ/পর্যবেক্ষণ ফিচারসডিক্ট
পদক্ষেপ/পর্যবেক্ষণ/বেস_পোজ টেনসর (৭,) float32 বিশ্ব ফ্রেমে রোবট বেস পোজ, [x, y, z, qw, qx, qy, qz] নিয়ে গঠিত। প্রথম তিনটি মাত্রা মিটারে xyz অবস্থানের প্রতিনিধিত্ব করে। শেষ চারটি মাত্রা হল ঘূর্ণনের quaternion উপস্থাপনা।
পদক্ষেপ/পর্যবেক্ষণ/গভীরতা ছবি (256, 256, 1) uint16 প্রধান ক্যামেরার গভীরতা পর্যবেক্ষণ। মিটারে গভীরতা পেতে গভীরতার মানকে 2**10 দ্বারা ভাগ করুন।
পদক্ষেপ/পর্যবেক্ষণ/চিত্র ছবি (256, 256, 3) uint8 প্রধান ক্যামেরা আরজিবি পর্যবেক্ষণ।
পদক্ষেপ/পর্যবেক্ষণ/main_camera_cam2world_gl টেনসর (৪, ৪) float32 ওপেনজিএল/ব্লেন্ডার কনভেনশনে মূল ক্যামেরা ফ্রেম থেকে ওয়ার্ল্ড ফ্রেমে রূপান্তর।
পদক্ষেপ/পর্যবেক্ষণ/প্রধান_ক্যামেরা_বহির্ভূত_সিভি টেনসর (৪, ৪) float32 OpenCV কনভেনশনে প্রধান ক্যামেরা এক্সট্রিনসিক ম্যাট্রিক্স।
পদক্ষেপ/পর্যবেক্ষণ/প্রধান_ক্যামেরা_ইন্ট্রিনসিক_সিভি টেনসর (৩, ৩) float32 OpenCV কনভেনশনে প্রধান ক্যামেরার অন্তর্নিহিত ম্যাট্রিক্স।
পদক্ষেপ/পর্যবেক্ষণ/রাষ্ট্র টেনসর (18,) float32 রোবট অবস্থা, [7x রোবট জয়েন্ট অ্যাঙ্গেল, 2x গ্রিপার পজিশন, 7x রোবট জয়েন্ট অ্যাঙ্গেল বেগ, 2x গ্রিপার বেগ] নিয়ে গঠিত। রেডিয়ানে কোণ, মিটারে অবস্থান।
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য_বস্তু_অথবা_পার্ট_ফাইনাল_পোজ টেনসর (৭,) float32 চূড়ান্ত ভঙ্গি যার দিকে লক্ষ্যবস্তু বা বস্তুর অংশকে ম্যানিপুলেট করা দরকার, সেটি [x, y, z, qw, qx, qy, qz] নিয়ে গঠিত। ভঙ্গি বিশ্ব ফ্রেমে প্রতিনিধিত্ব করা হয়. একটি পর্ব সফল বলে বিবেচিত হয় যদি লক্ষ্য বস্তু বা বস্তুর অংশ এই ভঙ্গিতে ম্যানিপুলেট করা হয়।
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য_বস্তু_বা_পার্ট_ফাইনাল_পজে_ভাল টেনসর (৭,) uint8 টার্গেট_অবজেক্ট_বা_পার্ট_ফাইনাল_পোজের প্রতিটি মাত্রা একটি পরিবেশে বৈধ কিনা। 1 = বৈধ; 0 = অবৈধ (যে ক্ষেত্রে লক্ষ্য_অবজেক্ট_বা_পার্ট_ফাইনাল_পোজে সংশ্লিষ্ট মাত্রা উপেক্ষা করা উচিত)। "অবৈধ" এর অর্থ হল সংশ্লিষ্ট মাত্রায় লক্ষ্য বস্তু বা বস্তুর অংশের চূড়ান্ত ভঙ্গিতে কোনো সফলতা যাচাই করা হয়নি।
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য_বস্তু_বা_পার্ট_প্রাথমিক_পোজ টেনসর (৭,) float32 লক্ষ্যবস্তু বা বস্তুর অংশের প্রাথমিক ভঙ্গি যা পরিচালনা করতে হবে, তাতে রয়েছে [x, y, z, qw, qx, qy, qz]। ভঙ্গি বিশ্ব ফ্রেমে প্রতিনিধিত্ব করা হয়. এই ভেরিয়েবলটি লক্ষ্য বস্তু বা বস্তুর অংশ নির্দিষ্ট করতে ব্যবহৃত হয় যখন একাধিক বস্তু বা বস্তুর অংশ একটি পরিবেশে উপস্থিত থাকে
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য_বস্তু_অর_অংশ_প্রাথমিক_ভঙ্গি_বৈধ টেনসর (৭,) uint8 লক্ষ্য_বস্তু_বা_পার্ট_প্রাথমিক_পোজের প্রতিটি মাত্রা একটি পরিবেশে বৈধ কিনা। 1 = বৈধ; 0 = অবৈধ (যে ক্ষেত্রে লক্ষ্য_বস্তু_বা_পার্ট_প্রাথমিক_পোজে সংশ্লিষ্ট মাত্রা উপেক্ষা করা উচিত)।
পদক্ষেপ/পর্যবেক্ষণ/tcp_pose টেনসর (৭,) float32 বিশ্ব ফ্রেমে রোবট টুল-সেন্টার-পয়েন্ট পোজ, [x, y, z, qw, qx, qy, qz] নিয়ে গঠিত। টুল-সেন্টার-পয়েন্ট হল দুটি গ্রিপার আঙ্গুলের মধ্যবর্তী কেন্দ্র।
steps/observation/wrist_camera_cam2world_gl টেনসর (৪, ৪) float32 OpenGL/ব্লেন্ডার কনভেনশনে রিস্ট ক্যামেরা ফ্রেম থেকে ওয়ার্ল্ড ফ্রেমে রূপান্তর।
পদক্ষেপ/পর্যবেক্ষণ/wrist_camera_extrinsic_cv টেনসর (৪, ৪) float32 OpenCV কনভেনশনে রিস্ট ক্যামেরা এক্সট্রিনসিক ম্যাট্রিক্স।
পদক্ষেপ/পর্যবেক্ষণ/wrist_camera_intrinsic_cv টেনসর (৩, ৩) float32 OpenCV কনভেনশনে রিস্ট ক্যামেরা ইন্ট্রিনসিক ম্যাট্রিক্স।
পদক্ষেপ/পর্যবেক্ষণ/কব্জি_গভীরতা ছবি (256, 256, 1) uint16 কব্জি ক্যামেরা গভীরতা পর্যবেক্ষণ। মিটারে গভীরতা পেতে গভীরতার মানকে 2**10 দ্বারা ভাগ করুন।
পদক্ষেপ/পর্যবেক্ষণ/কব্জি_চিত্র ছবি (256, 256, 3) uint8 কব্জি ক্যামেরা আরজিবি পর্যবেক্ষণ।
পদক্ষেপ/পুরস্কার স্কেলার float32 প্রদান করা হলে পুরস্কার, ডেমোর জন্য চূড়ান্ত ধাপে 1।
  • উদ্ধৃতি :
@inproceedings{gu2023maniskill2,
  title={ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills},
  author={Gu, Jiayuan and Xiang, Fanbo and Li, Xuanlin and Ling, Zhan and Liu, Xiqiang and Mu, Tongzhou and Tang, Yihe and Tao, Stone and Wei, Xinyue and Yao, Yunchao and Yuan, Xiaodi and Xie, Pengwei and Huang, Zhiao and Chen, Rui and Su, Hao},
  booktitle={International Conference on Learning Representations},
  year={2023}
}