rlu_locomotion

  • विवरण :

आरएल अनप्लग्ड ऑफ़लाइन रीइन्फोर्समेंट लर्निंग के लिए बेंचमार्क का सूट है। आरएल अनप्लग्ड को निम्नलिखित विचारों के आसपास डिज़ाइन किया गया है: उपयोग में आसानी के लिए, हम एक एकीकृत एपीआई के साथ डेटासेट प्रदान करते हैं जो सामान्य पाइपलाइन स्थापित होने के बाद व्यवसायी के लिए सूट में सभी डेटा के साथ काम करना आसान बनाता है।

डेटासेट चरण और एपिसोड का प्रतिनिधित्व करने के लिए आरएलडीएस प्रारूप का पालन करते हैं।

ये कार्य CMU ह्यूमनॉइड से जुड़े कॉरिडोर लोकोमोशन कार्यों से बने हैं, जिसके लिए पूर्व प्रयासों में या तो मोशन कैप्चर डेटा Merel et al., 2019a , Merel et al., 2019b या स्क्रैच सॉन्ग एट अल।, 2020 से प्रशिक्षण का उपयोग किया गया है। इसके अलावा, डीएम लोकोमोशन रिपॉजिटरी में एक आभासी कृंतक मेरेल एट अल।, 2020 के अनुकूल होने के लिए अनुकूलित कार्यों का एक सेट होता है। हम इस बात पर जोर देते हैं कि डीएम लोकोमोशन कार्यों में समृद्ध अहंकारी टिप्पणियों से धारणा के साथ-साथ उच्च-डीओएफ निरंतर नियंत्रण को चुनौती देने का संयोजन होता है। डेटासेट कैसे उत्पन्न किया गया था, इसके विवरण के लिए, कृपया पेपर देखें।

हम आपको डीपमाइंड लोकोमोशन डेटासेट पर ऑफ़लाइन आरएल विधियों को आज़माने की सलाह देते हैं, यदि आप निरंतर क्रिया स्थान के साथ बहुत ही चुनौतीपूर्ण ऑफ़लाइन आरएल डेटासेट में रुचि रखते हैं।

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_locomotion/humanoid_corridor (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • डेटासेट का आकार : 1.88 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 4,000
  • फ़ीचर संरचना :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
प्रकरण_आईडी टेन्सर int64
कदम डेटासेट
कदम / कार्रवाई टेन्सर (56,) फ्लोट32
चरण/छूट टेन्सर फ्लोट32
चरण/is_first टेन्सर बूल
चरण/is_last टेन्सर बूल
कदम/is_terminal टेन्सर बूल
चरण/अवलोकन विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर/body_height टेन्सर (1,) फ्लोट32
चरण/अवलोकन/वॉकर/egocentric_camera छवि (64, 64, 3) uint8
चरण/अवलोकन/वॉकर/end_effectors_pos टेन्सर (12,) फ्लोट32
चरण/अवलोकन/वॉकर/joints_pos टेन्सर (56,) फ्लोट32
चरण/अवलोकन/वॉकर/joints_vel टेन्सर (56,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_एक्सेलेरोमीटर टेन्सर (3,) फ्लोट32
कदम/अवलोकन/वॉकर/sensors_gyro टेन्सर (3,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_वेलोसिमीटर टेन्सर (3,) फ्लोट32
चरण/अवलोकन/वॉकर/world_zaxis टेन्सर (3,) फ्लोट32
कदम / इनाम टेन्सर फ्लोट32
TIMESTAMP टेन्सर int64

rlu_locomotion/humanoid_gaps

  • डेटासेट का आकार : 4.57 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 8,000
  • फ़ीचर संरचना :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
प्रकरण_आईडी टेन्सर int64
कदम डेटासेट
कदम / कार्रवाई टेन्सर (56,) फ्लोट32
चरण/छूट टेन्सर फ्लोट32
चरण/is_first टेन्सर बूल
चरण/is_last टेन्सर बूल
कदम/is_terminal टेन्सर बूल
चरण/अवलोकन विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर/body_height टेन्सर (1,) फ्लोट32
चरण/अवलोकन/वॉकर/egocentric_camera छवि (64, 64, 3) uint8
चरण/अवलोकन/वॉकर/end_effectors_pos टेन्सर (12,) फ्लोट32
चरण/अवलोकन/वॉकर/joints_pos टेन्सर (56,) फ्लोट32
चरण/अवलोकन/वॉकर/joints_vel टेन्सर (56,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_एक्सेलेरोमीटर टेन्सर (3,) फ्लोट32
कदम/अवलोकन/वॉकर/sensors_gyro टेन्सर (3,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_वेलोसिमीटर टेन्सर (3,) फ्लोट32
चरण/अवलोकन/वॉकर/world_zaxis टेन्सर (3,) फ्लोट32
कदम / इनाम टेन्सर फ्लोट32
TIMESTAMP टेन्सर int64

rlu_locomotion/humanoid_walls

  • डेटासेट का आकार : 2.36 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 4,000
  • फ़ीचर संरचना :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
प्रकरण_आईडी टेन्सर int64
कदम डेटासेट
कदम / कार्रवाई टेन्सर (56,) फ्लोट32
चरण/छूट टेन्सर फ्लोट32
चरण/is_first टेन्सर बूल
चरण/is_last टेन्सर बूल
कदम/is_terminal टेन्सर बूल
चरण/अवलोकन विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर/body_height टेन्सर (1,) फ्लोट32
चरण/अवलोकन/वॉकर/egocentric_camera छवि (64, 64, 3) uint8
चरण/अवलोकन/वॉकर/end_effectors_pos टेन्सर (12,) फ्लोट32
चरण/अवलोकन/वॉकर/joints_pos टेन्सर (56,) फ्लोट32
चरण/अवलोकन/वॉकर/joints_vel टेन्सर (56,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_एक्सेलेरोमीटर टेन्सर (3,) फ्लोट32
कदम/अवलोकन/वॉकर/sensors_gyro टेन्सर (3,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_वेलोसिमीटर टेन्सर (3,) फ्लोट32
चरण/अवलोकन/वॉकर/world_zaxis टेन्सर (3,) फ्लोट32
कदम / इनाम टेन्सर फ्लोट32
TIMESTAMP टेन्सर int64

rlu_locomotion/rodent_bowl_escape

  • डेटासेट का आकार : 16.46 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 2,000
  • फ़ीचर संरचना :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
प्रकरण_आईडी टेन्सर int64
कदम डेटासेट
कदम / कार्रवाई टेन्सर (38,) फ्लोट32
चरण/छूट टेन्सर फ्लोट32
चरण/is_first टेन्सर बूल
चरण/is_last टेन्सर बूल
कदम/is_terminal टेन्सर बूल
चरण/अवलोकन विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर/appendages_pos टेन्सर (15,) फ्लोट32
चरण/अवलोकन/वॉकर/egocentric_camera छवि (64, 64, 3) uint8
चरण/अवलोकन/वॉकर/joints_pos टेन्सर (30,) फ्लोट32
चरण/अवलोकन/वॉकर/joints_vel टेन्सर (30,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_एक्सेलेरोमीटर टेन्सर (3,) फ्लोट32
कदम/अवलोकन/वॉकर/sensors_gyro टेन्सर (3,) फ्लोट32
चरण/अवलोकन/वॉकर/सेंसर_टच टेन्सर (4,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_वेलोसिमीटर टेन्सर (3,) फ्लोट32
चरण/अवलोकन/वॉकर/tendons_pos टेन्सर (8,) फ्लोट32
चरण/अवलोकन/वॉकर/tendons_vel टेन्सर (8,) फ्लोट32
चरण/अवलोकन/वॉकर/world_zaxis टेन्सर (3,) फ्लोट32
कदम / इनाम टेन्सर फ्लोट32
TIMESTAMP टेन्सर int64

rlu_locomotion/rodent_gaps

  • डेटासेट का आकार : 8.90 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 2,000
  • फ़ीचर संरचना :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
प्रकरण_आईडी टेन्सर int64
कदम डेटासेट
कदम / कार्रवाई टेन्सर (38,) फ्लोट32
चरण/छूट टेन्सर फ्लोट32
चरण/is_first टेन्सर बूल
चरण/is_last टेन्सर बूल
कदम/is_terminal टेन्सर बूल
चरण/अवलोकन विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर/appendages_pos टेन्सर (15,) फ्लोट32
चरण/अवलोकन/वॉकर/egocentric_camera छवि (64, 64, 3) uint8
चरण/अवलोकन/वॉकर/joints_pos टेन्सर (30,) फ्लोट32
चरण/अवलोकन/वॉकर/joints_vel टेन्सर (30,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_एक्सेलेरोमीटर टेन्सर (3,) फ्लोट32
कदम/अवलोकन/वॉकर/sensors_gyro टेन्सर (3,) फ्लोट32
चरण/अवलोकन/वॉकर/सेंसर_टच टेन्सर (4,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_वेलोसिमीटर टेन्सर (3,) फ्लोट32
चरण/अवलोकन/वॉकर/tendons_pos टेन्सर (8,) फ्लोट32
चरण/अवलोकन/वॉकर/tendons_vel टेन्सर (8,) फ्लोट32
चरण/अवलोकन/वॉकर/world_zaxis टेन्सर (3,) फ्लोट32
कदम / इनाम टेन्सर फ्लोट32
TIMESTAMP टेन्सर int64

rlu_locomotion/rodent_mazes

  • डेटासेट का आकार : 20.71 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 2,000
  • फ़ीचर संरचना :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
प्रकरण_आईडी टेन्सर int64
कदम डेटासेट
कदम / कार्रवाई टेन्सर (38,) फ्लोट32
चरण/छूट टेन्सर फ्लोट32
चरण/is_first टेन्सर बूल
चरण/is_last टेन्सर बूल
कदम/is_terminal टेन्सर बूल
चरण/अवलोकन विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर/appendages_pos टेन्सर (15,) फ्लोट32
चरण/अवलोकन/वॉकर/egocentric_camera छवि (64, 64, 3) uint8
चरण/अवलोकन/वॉकर/joints_pos टेन्सर (30,) फ्लोट32
चरण/अवलोकन/वॉकर/joints_vel टेन्सर (30,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_एक्सेलेरोमीटर टेन्सर (3,) फ्लोट32
कदम/अवलोकन/वॉकर/sensors_gyro टेन्सर (3,) फ्लोट32
चरण/अवलोकन/वॉकर/सेंसर_टच टेन्सर (4,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_वेलोसिमीटर टेन्सर (3,) फ्लोट32
चरण/अवलोकन/वॉकर/tendons_pos टेन्सर (8,) फ्लोट32
चरण/अवलोकन/वॉकर/tendons_vel टेन्सर (8,) फ्लोट32
चरण/अवलोकन/वॉकर/world_zaxis टेन्सर (3,) फ्लोट32
कदम / इनाम टेन्सर फ्लोट32
TIMESTAMP टेन्सर int64

rlu_locomotion/कृंतक_दो_टच

  • डेटासेट का आकार : 23.05 GiB

  • विभाजन :

विभाजित करना उदाहरण
'train' 2,000
  • फ़ीचर संरचना :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
प्रकरण_आईडी टेन्सर int64
कदम डेटासेट
कदम / कार्रवाई टेन्सर (38,) फ्लोट32
चरण/छूट टेन्सर फ्लोट32
चरण/is_first टेन्सर बूल
चरण/is_last टेन्सर बूल
कदम/is_terminal टेन्सर बूल
चरण/अवलोकन विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर विशेषताएं डिक्ट
कदम/अवलोकन/वॉकर/appendages_pos टेन्सर (15,) फ्लोट32
चरण/अवलोकन/वॉकर/egocentric_camera छवि (64, 64, 3) uint8
चरण/अवलोकन/वॉकर/joints_pos टेन्सर (30,) फ्लोट32
चरण/अवलोकन/वॉकर/joints_vel टेन्सर (30,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_एक्सेलेरोमीटर टेन्सर (3,) फ्लोट32
कदम/अवलोकन/वॉकर/sensors_gyro टेन्सर (3,) फ्लोट32
चरण/अवलोकन/वॉकर/सेंसर_टच टेन्सर (4,) फ्लोट32
कदम/अवलोकन/वॉकर/सेंसर_वेलोसिमीटर टेन्सर (3,) फ्लोट32
चरण/अवलोकन/वॉकर/tendons_pos टेन्सर (8,) फ्लोट32
चरण/अवलोकन/वॉकर/tendons_vel टेन्सर (8,) फ्लोट32
चरण/अवलोकन/वॉकर/world_zaxis टेन्सर (3,) फ्लोट32
कदम / इनाम टेन्सर फ्लोट32
TIMESTAMP टेन्सर int64