rlu_rwrl

  • คำอธิบาย :

RL Unplugged เป็นชุดมาตรฐานสำหรับการเรียนรู้เสริมกำลังแบบออฟไลน์ RL Unplugged ได้รับการออกแบบโดยคำนึงถึงสิ่งต่อไปนี้: เพื่ออำนวยความสะดวกในการใช้งาน เราจัดเตรียมชุดข้อมูลด้วย API แบบรวม ซึ่งช่วยให้ผู้ปฏิบัติงานทำงานกับข้อมูลทั้งหมดในชุดได้ง่ายเมื่อมีการสร้างไปป์ไลน์ทั่วไป

ชุดข้อมูลเป็นไปตาม รูปแบบ RLDS เพื่อแสดงขั้นตอนและตอนต่างๆ

ตัวอย่างในชุดข้อมูลแสดงถึงการเปลี่ยนผ่าน SAR ที่จัดเก็บเมื่อเรียกใช้เอเจนต์ที่ผ่านการฝึกอบรมบางส่วนทางออนไลน์ตามที่อธิบายไว้ใน https://arxiv.org/abs/1904.12901 เราทำตามรูปแบบชุดข้อมูล RLDS ตามที่ระบุไว้ใน https://github.com/google-research /rlds#dataset-format

เราเผยแพร่ชุดข้อมูล 40 ชุดสำหรับ 8 งานทั้งหมด โดยไม่มีความท้าทายแบบรวมและความท้าทายแบบรวมที่ง่ายในงานคาร์ทโพล วอล์คเกอร์ สัตว์สี่เท้า และงานคล้ายมนุษย์ แต่ละงานประกอบด้วยชุดข้อมูล 5 ขนาดที่แตกต่างกัน 1%, 5%, 20%, 40% และ 100% โปรดทราบว่าชุดข้อมูลที่เล็กกว่าไม่รับประกันว่าจะเป็นชุดย่อยของชุดข้อมูลที่ใหญ่กว่า สำหรับรายละเอียดเกี่ยวกับวิธีสร้างชุดข้อมูล โปรดดูเอกสาร

  • หน้าแรก : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged

  • รหัสแหล่งที่มา : tfds.rl_unplugged.rlu_rwrl.RluRwrl

  • รุ่น :

    • 1.0.0 : การเปิดตัวครั้งแรก
    • 1.0.1 (ค่าเริ่มต้น): แก้ไขจุดบกพร่องในชุดข้อมูล RLU RWRL ซึ่งมีรหัสตอนที่ซ้ำกันในชุดข้อมูลมนุษย์ชุดใดชุดหนึ่ง
  • ขนาดการดาวน์โหลด : Unknown size

  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@misc{gulcehre2020rl,
    title={RL Unplugged: Benchmarks for Offline Reinforcement Learning},
    author={Caglar Gulcehre and Ziyu Wang and Alexander Novikov and Tom Le Paine
        and  Sergio Gómez Colmenarejo and Konrad Zolna and Rishabh Agarwal and
        Josh Merel and Daniel Mankowitz and Cosmin Paduraru and Gabriel
        Dulac-Arnold and Jerry Li and Mohammad Norouzi and Matt Hoffman and
        Ofir Nachum and George Tucker and Nicolas Heess and Nando deFreitas},
    year={2020},
    eprint={2006.13888},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

rlu_rwrl/cartpole_swingup_combined_challenge_none_1_percent (การกำหนดค่าเริ่มต้น)

  • ขนาดชุดข้อมูล : 172.43 KiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 5
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (1,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/ตำแหน่ง เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (2,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/cartpole_swingup_combined_challenge_none_5_percent

  • ขนาดชุดข้อมูล : 862.13 KiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 25
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (1,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/ตำแหน่ง เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (2,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/cartpole_swingup_combined_challenge_none_20_percent

  • ขนาดชุดข้อมูล : 3.37 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 100
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (1,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/ตำแหน่ง เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (2,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/cartpole_swingup_combined_challenge_none_40_percent

  • ขนาดชุดข้อมูล : 6.74 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 200
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (1,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/ตำแหน่ง เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (2,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/cartpole_swingup_combined_challenge_none_100_percent

  • ขนาดชุดข้อมูล : 16.84 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 500
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (1,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/ตำแหน่ง เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (2,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/quadruped_walk_combined_challenge_none_1_percent

  • ขนาดชุดข้อมูล : 1.77 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 5
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (12,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/ข้อสังเกต/egocentric_state เทนเซอร์ (44,) ลอย32
ขั้นตอน/การสังเกต/force_torque เทนเซอร์ (24,) ลอย32
ขั้นตอน/การสังเกต/imu เทนเซอร์ (6,) ลอย32
ขั้นตอน/การสังเกต/torso_upright เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/torso_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/quadruped_walk_combined_challenge_none_5_percent

  • ขนาดชุดข้อมูล : 8.86 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 25
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (12,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/ข้อสังเกต/egocentric_state เทนเซอร์ (44,) ลอย32
ขั้นตอน/การสังเกต/force_torque เทนเซอร์ (24,) ลอย32
ขั้นตอน/การสังเกต/imu เทนเซอร์ (6,) ลอย32
ขั้นตอน/การสังเกต/torso_upright เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/torso_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/quadruped_walk_combined_challenge_none_20_percent

  • ขนาดชุดข้อมูล : 35.46 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 100
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (12,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/ข้อสังเกต/egocentric_state เทนเซอร์ (44,) ลอย32
ขั้นตอน/การสังเกต/force_torque เทนเซอร์ (24,) ลอย32
ขั้นตอน/การสังเกต/imu เทนเซอร์ (6,) ลอย32
ขั้นตอน/การสังเกต/torso_upright เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/torso_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/quadruped_walk_combined_challenge_none_40_percent

  • ขนาดชุดข้อมูล : 70.92 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 200
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (12,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/ข้อสังเกต/egocentric_state เทนเซอร์ (44,) ลอย32
ขั้นตอน/การสังเกต/force_torque เทนเซอร์ (24,) ลอย32
ขั้นตอน/การสังเกต/imu เทนเซอร์ (6,) ลอย32
ขั้นตอน/การสังเกต/torso_upright เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/torso_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/quadruped_walk_combined_challenge_none_100_percent

  • ขนาดชุดข้อมูล : 177.29 MiB

  • แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ shuffle_files=False (รถไฟ)

  • แยก :

แยก ตัวอย่าง
'train' 500
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (12,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/ข้อสังเกต/egocentric_state เทนเซอร์ (44,) ลอย32
ขั้นตอน/การสังเกต/force_torque เทนเซอร์ (24,) ลอย32
ขั้นตอน/การสังเกต/imu เทนเซอร์ (6,) ลอย32
ขั้นตอน/การสังเกต/torso_upright เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/torso_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/walker_walk_combined_challenge_none_1_percent

  • ขนาดชุดข้อมูล : 6.27 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 50
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / ความสูง เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/แนวทาง เทนเซอร์ (14,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (9,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/walker_walk_combined_challenge_none_5_percent

  • ขนาดชุดข้อมูล : 31.34 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 250
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / ความสูง เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/แนวทาง เทนเซอร์ (14,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (9,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/walker_walk_combined_challenge_none_20_percent

  • ขนาดชุดข้อมูล : 125.37 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 1,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / ความสูง เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/แนวทาง เทนเซอร์ (14,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (9,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/walker_walk_combined_challenge_none_40_percent

แยก ตัวอย่าง
'train' 2,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / ความสูง เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/แนวทาง เทนเซอร์ (14,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (9,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/walker_walk_combined_challenge_none_100_percent

แยก ตัวอย่าง
'train' 5,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน / การสังเกต / ความสูง เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/แนวทาง เทนเซอร์ (14,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (9,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/humanoid_walk_combined_challenge_none_1_percent

  • ขนาดชุดข้อมูล : 69.40 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 200
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (21,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/com_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / แขนขา เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/head_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/joint_angles เทนเซอร์ (21,) ลอย32
ขั้นตอน/การสังเกต/torso_vertical เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (27,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/humanoid_walk_combined_challenge_none_5_percent

แยก ตัวอย่าง
'train' 1,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (21,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/com_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / แขนขา เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/head_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/joint_angles เทนเซอร์ (21,) ลอย32
ขั้นตอน/การสังเกต/torso_vertical เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (27,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/humanoid_walk_combined_challenge_none_20_percent

แยก ตัวอย่าง
'train' 4,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (21,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/com_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / แขนขา เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/head_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/joint_angles เทนเซอร์ (21,) ลอย32
ขั้นตอน/การสังเกต/torso_vertical เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (27,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/humanoid_walk_combined_challenge_none_40_percent

แยก ตัวอย่าง
'train' 8,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (21,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/com_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / แขนขา เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/head_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/joint_angles เทนเซอร์ (21,) ลอย32
ขั้นตอน/การสังเกต/torso_vertical เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (27,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/humanoid_walk_combined_challenge_none_100_percent

แยก ตัวอย่าง
'train' 20,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (21,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/com_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / แขนขา เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/head_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/joint_angles เทนเซอร์ (21,) ลอย32
ขั้นตอน/การสังเกต/torso_vertical เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (27,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/cartpole_swingup_combined_challenge_easy_1_percent

  • ขนาดชุดข้อมูล : 369.84 KiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 5
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (1,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ตำแหน่ง เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (2,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/cartpole_swingup_combined_challenge_easy_5_percent

  • ขนาดชุดข้อมูล : 1.81 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 25
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (1,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ตำแหน่ง เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (2,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/cartpole_swingup_combined_challenge_easy_20_percent

  • ขนาดชุดข้อมูล : 7.22 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 100
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (1,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ตำแหน่ง เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (2,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/cartpole_swingup_combined_challenge_easy_40_percent

  • ขนาดชุดข้อมูล : 14.45 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 200
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (1,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ตำแหน่ง เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (2,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/cartpole_swingup_combined_challenge_easy_100_percent

  • ขนาดชุดข้อมูล : 36.12 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 500
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (1,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ตำแหน่ง เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (2,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/quadruped_walk_combined_challenge_easy_1_percent

  • ขนาดชุดข้อมูล : 1.97 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 5
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (12,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/egocentric_state เทนเซอร์ (44,) ลอย32
ขั้นตอน/การสังเกต/force_torque เทนเซอร์ (24,) ลอย32
ขั้นตอน/การสังเกต/imu เทนเซอร์ (6,) ลอย32
ขั้นตอน/การสังเกต/torso_upright เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/torso_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/quadruped_walk_combined_challenge_easy_5_percent

  • ขนาดชุดข้อมูล : 9.83 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 25
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (12,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/egocentric_state เทนเซอร์ (44,) ลอย32
ขั้นตอน/การสังเกต/force_torque เทนเซอร์ (24,) ลอย32
ขั้นตอน/การสังเกต/imu เทนเซอร์ (6,) ลอย32
ขั้นตอน/การสังเกต/torso_upright เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/torso_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/quadruped_walk_combined_challenge_easy_20_percent

  • ขนาดชุดข้อมูล : 39.31 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 100
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (12,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/egocentric_state เทนเซอร์ (44,) ลอย32
ขั้นตอน/การสังเกต/force_torque เทนเซอร์ (24,) ลอย32
ขั้นตอน/การสังเกต/imu เทนเซอร์ (6,) ลอย32
ขั้นตอน/การสังเกต/torso_upright เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/torso_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/quadruped_walk_combined_challenge_easy_40_percent

  • ขนาดชุดข้อมูล : 78.63 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 200
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (12,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/egocentric_state เทนเซอร์ (44,) ลอย32
ขั้นตอน/การสังเกต/force_torque เทนเซอร์ (24,) ลอย32
ขั้นตอน/การสังเกต/imu เทนเซอร์ (6,) ลอย32
ขั้นตอน/การสังเกต/torso_upright เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/torso_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/quadruped_walk_combined_challenge_easy_100_percent

  • ขนาดชุดข้อมูล : 196.57 MiB

  • แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ shuffle_files=False (รถไฟ)

  • แยก :

แยก ตัวอย่าง
'train' 500
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (12,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/egocentric_state เทนเซอร์ (44,) ลอย32
ขั้นตอน/การสังเกต/force_torque เทนเซอร์ (24,) ลอย32
ขั้นตอน/การสังเกต/imu เทนเซอร์ (6,) ลอย32
ขั้นตอน/การสังเกต/torso_upright เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/torso_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/walker_walk_combined_challenge_easy_1_percent

  • ขนาดชุดข้อมูล : 8.20 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 50
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน / การสังเกต / ความสูง เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/แนวทาง เทนเซอร์ (14,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (9,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/walker_walk_combined_challenge_easy_5_percent

  • ขนาดชุดข้อมูล : 40.98 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 250
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน / การสังเกต / ความสูง เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/แนวทาง เทนเซอร์ (14,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (9,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/walker_walk_combined_challenge_easy_20_percent

  • ขนาดชุดข้อมูล : 163.93 MiB

  • แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ shuffle_files=False (รถไฟ)

  • แยก :

แยก ตัวอย่าง
'train' 1,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน / การสังเกต / ความสูง เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/แนวทาง เทนเซอร์ (14,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (9,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/walker_walk_combined_challenge_easy_40_percent

แยก ตัวอย่าง
'train' 2,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน / การสังเกต / ความสูง เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/แนวทาง เทนเซอร์ (14,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (9,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/walker_walk_combined_challenge_easy_100_percent

แยก ตัวอย่าง
'train' 5,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (6,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน / การสังเกต / ความสูง เทนเซอร์ (1,) ลอย32
ขั้นตอน/ข้อสังเกต/แนวทาง เทนเซอร์ (14,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (9,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/humanoid_walk_combined_challenge_easy_1_percent

  • ขนาดชุดข้อมูล : 77.11 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 200
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (21,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/com_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน / การสังเกต / แขนขา เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/head_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/joint_angles เทนเซอร์ (21,) ลอย32
ขั้นตอน/การสังเกต/torso_vertical เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (27,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/humanoid_walk_combined_challenge_easy_5_percent

แยก ตัวอย่าง
'train' 1,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (21,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/com_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน / การสังเกต / แขนขา เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/head_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/joint_angles เทนเซอร์ (21,) ลอย32
ขั้นตอน/การสังเกต/torso_vertical เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (27,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/humanoid_walk_combined_challenge_easy_20_percent

แยก ตัวอย่าง
'train' 4,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (21,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/com_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน / การสังเกต / แขนขา เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/head_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/joint_angles เทนเซอร์ (21,) ลอย32
ขั้นตอน/การสังเกต/torso_vertical เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (27,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/humanoid_walk_combined_challenge_easy_40_percent

แยก ตัวอย่าง
'train' 8,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (21,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/com_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน / การสังเกต / แขนขา เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/head_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/joint_angles เทนเซอร์ (21,) ลอย32
ขั้นตอน/การสังเกต/torso_vertical เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (27,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32

rlu_rwrl/humanoid_walk_combined_challenge_easy_100_percent

แยก ตัวอย่าง
'train' 20,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตอนที่_return เทนเซอร์ ลอย32
ขั้นตอน ชุดข้อมูล
ขั้นตอน/การดำเนินการ เทนเซอร์ (21,) ลอย32
ขั้นตอน/ส่วนลด เทนเซอร์ (1,) ลอย32
ขั้นตอน/is_first เทนเซอร์ บูล
ขั้นตอน/is_last เทนเซอร์ บูล
ขั้นตอน/is_terminal เทนเซอร์ บูล
ขั้นตอน/ข้อสังเกต คุณสมบัติDict
ขั้นตอน/การสังเกต/com_velocity เทนเซอร์ (3,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-0 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-1 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-2 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-3 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-4 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-5 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-6 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-7 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/ดัมมี่-8 เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/หุ่นจำลอง-9 เทนเซอร์ (1,) ลอย32
ขั้นตอน / การสังเกต / แขนขา เทนเซอร์ (12,) ลอย32
ขั้นตอน/การสังเกต/head_height เทนเซอร์ (1,) ลอย32
ขั้นตอน/การสังเกต/joint_angles เทนเซอร์ (21,) ลอย32
ขั้นตอน/การสังเกต/torso_vertical เทนเซอร์ (3,) ลอย32
ขั้นตอน / การสังเกต / ความเร็ว เทนเซอร์ (27,) ลอย32
ขั้นตอน / รางวัล เทนเซอร์ (1,) ลอย32