- विवरण :
D4RL ऑफ़लाइन सुदृढीकरण सीखने के लिए एक ओपन-सोर्स बेंचमार्क है। यह प्रशिक्षण और बेंचमार्किंग एल्गोरिदम के लिए मानकीकृत वातावरण और डेटासेट प्रदान करता है।
डेटासेट चरणों और एपिसोड का प्रतिनिधित्व करने के लिए आरएलडीएस प्रारूप का पालन करते हैं।
कॉन्फ़िगरेशन विवरण : कार्य और उसके संस्करणों के बारे में अधिक विवरण https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym में देखें
मुखपृष्ठ : https://sites.google.com/view/d4rl-anonymous
स्रोत कोड :
tfds.d4rl.d4rl_mujoco_halfcheetah.D4rlMujocoHalfcheetah
संस्करण :
-
1.0.0
: प्रारंभिक रिलीज. -
1.0.1
: एपिसोड और चरण मेटाडेटा के लिए समर्थन, और सभी कॉन्फ़िगरेशन में इनाम आकार का एकीकरण। -
1.1.0
: जोड़ा गया_अंतिम है। -
1.2.0
(डिफ़ॉल्ट): अगले अवलोकन को ध्यान में रखने के लिए अद्यतन किया गया।
-
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_mujoco_halfcheetah/v0-विशेषज्ञ (डिफ़ॉल्ट कॉन्फ़िगरेशन)
डाउनलोड आकार :
83.44 MiB
डेटासेट का आकार :
98.43 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,002 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v0-मध्यम
डाउनलोड आकार :
82.92 MiB
डेटासेट का आकार :
98.43 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,002 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v0-मध्यम-विशेषज्ञ
डाउनलोड आकार :
166.36 MiB
डेटासेट का आकार :
196.86 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल तभी जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 2,004 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v0-मिश्रित
डाउनलोड आकार :
8.60 MiB
डेटासेट का आकार :
9.94 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 101 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v0-random
डाउनलोड आकार :
84.79 MiB
डेटासेट का आकार :
98.43 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,002 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-विशेषज्ञ
डाउनलोड आकार :
146.94 MiB
डेटासेट का आकार :
451.88 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 17), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(9,), dtype=float32),
'qvel': Tensor(shape=(9,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
नीति | फीचर्सडिक्ट | |||
नीति/fc0 | फीचर्सडिक्ट | |||
नीति/fc0/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
पॉलिसी/fc0/वज़न | टेन्सर | (256, 17) | फ्लोट32 | |
नीति/एफसी1 | फीचर्सडिक्ट | |||
नीति/एफसी1/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
पॉलिसी/एफसी1/वेट | टेन्सर | (256, 256) | फ्लोट32 | |
नीति/last_fc | फीचर्सडिक्ट | |||
नीति/अंतिम_एफसी/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
नीति/अंतिम_एफसी/वजन | टेन्सर | (6,256) | फ्लोट32 | |
नीति/last_fc_log_std | फीचर्सडिक्ट | |||
नीति/last_fc_log_std/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
पॉलिसी/last_fc_log_std/weight | टेन्सर | (6,256) | फ्लोट32 | |
नीति/अरैखिकता | टेन्सर | डोरी | ||
नीति/आउटपुट_वितरण | टेन्सर | डोरी | ||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/जानकारी | फीचर्सडिक्ट | |||
चरण/जानकारी/कार्रवाई_लॉग_प्रोब्स | टेन्सर | फ्लोट32 | ||
चरण/जानकारी/क्यूपीओएस | टेन्सर | (9,) | फ्लोट32 | |
चरण/जानकारी/qvel | टेन्सर | (9,) | फ्लोट32 | |
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-मध्यम
डाउनलोड आकार :
146.65 MiB
डेटासेट का आकार :
451.88 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 17), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(9,), dtype=float32),
'qvel': Tensor(shape=(9,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
नीति | फीचर्सडिक्ट | |||
नीति/fc0 | फीचर्सडिक्ट | |||
नीति/fc0/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
पॉलिसी/fc0/वज़न | टेन्सर | (256, 17) | फ्लोट32 | |
नीति/एफसी1 | फीचर्सडिक्ट | |||
नीति/एफसी1/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
पॉलिसी/एफसी1/वेट | टेन्सर | (256, 256) | फ्लोट32 | |
नीति/last_fc | फीचर्सडिक्ट | |||
नीति/अंतिम_एफसी/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
नीति/अंतिम_एफसी/वजन | टेन्सर | (6,256) | फ्लोट32 | |
नीति/last_fc_log_std | फीचर्सडिक्ट | |||
नीति/last_fc_log_std/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
पॉलिसी/last_fc_log_std/weight | टेन्सर | (6,256) | फ्लोट32 | |
नीति/अरैखिकता | टेन्सर | डोरी | ||
नीति/आउटपुट_वितरण | टेन्सर | डोरी | ||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/जानकारी | फीचर्सडिक्ट | |||
चरण/जानकारी/कार्रवाई_लॉग_प्रोब्स | टेन्सर | फ्लोट32 | ||
चरण/जानकारी/क्यूपीओएस | टेन्सर | (9,) | फ्लोट32 | |
चरण/जानकारी/qvel | टेन्सर | (9,) | फ्लोट32 | |
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-मध्यम-विशेषज्ञ
डाउनलोड आकार :
293.00 MiB
डेटासेट का आकार :
342.37 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 2,000 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(9,), dtype=float32),
'qvel': Tensor(shape=(9,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/जानकारी | फीचर्सडिक्ट | |||
चरण/जानकारी/कार्रवाई_लॉग_प्रोब्स | टेन्सर | फ्लोट32 | ||
चरण/जानकारी/क्यूपीओएस | टेन्सर | (9,) | फ्लोट32 | |
चरण/जानकारी/qvel | टेन्सर | (9,) | फ्लोट32 | |
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-मध्यम-रीप्ले
डाउनलोड आकार :
57.68 MiB
डेटासेट का आकार :
34.59 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 202 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float64),
'discount': float64,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float64),
'reward': float64,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट64 | |
कदम/छूट | टेन्सर | फ्लोट64 | ||
चरण/जानकारी | फीचर्सडिक्ट | |||
चरण/जानकारी/कार्रवाई_लॉग_प्रोब्स | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/क्यूपीओएस | टेन्सर | (9,) | फ्लोट64 | |
चरण/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट64 | |
कदम/इनाम | टेन्सर | फ्लोट64 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-पूर्ण-रीप्ले
डाउनलोड आकार :
285.01 MiB
डेटासेट का आकार :
171.22 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल तभी जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float64),
'discount': float64,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float64),
'reward': float64,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट64 | |
कदम/छूट | टेन्सर | फ्लोट64 | ||
चरण/जानकारी | फीचर्सडिक्ट | |||
चरण/जानकारी/कार्रवाई_लॉग_प्रोब्स | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/क्यूपीओएस | टेन्सर | (9,) | फ्लोट64 | |
चरण/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट64 | |
कदम/इनाम | टेन्सर | फ्लोट64 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v1-random
डाउनलोड आकार :
145.19 MiB
डेटासेट का आकार :
171.18 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल तभी जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float32,
'qpos': Tensor(shape=(9,), dtype=float32),
'qvel': Tensor(shape=(9,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/जानकारी | फीचर्सडिक्ट | |||
चरण/जानकारी/कार्रवाई_लॉग_प्रोब्स | टेन्सर | फ्लोट32 | ||
चरण/जानकारी/क्यूपीओएस | टेन्सर | (9,) | फ्लोट32 | |
चरण/जानकारी/qvel | टेन्सर | (9,) | फ्लोट32 | |
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-विशेषज्ञ
डाउनलोड आकार :
226.46 MiB
डेटासेट का आकार :
451.88 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 17), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
नीति | फीचर्सडिक्ट | |||
नीति/fc0 | फीचर्सडिक्ट | |||
नीति/fc0/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
पॉलिसी/fc0/वज़न | टेन्सर | (256, 17) | फ्लोट32 | |
नीति/एफसी1 | फीचर्सडिक्ट | |||
नीति/एफसी1/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
पॉलिसी/एफसी1/वेट | टेन्सर | (256, 256) | फ्लोट32 | |
नीति/last_fc | फीचर्सडिक्ट | |||
नीति/अंतिम_एफसी/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
नीति/अंतिम_एफसी/वजन | टेन्सर | (6,256) | फ्लोट32 | |
नीति/last_fc_log_std | फीचर्सडिक्ट | |||
नीति/last_fc_log_std/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
पॉलिसी/last_fc_log_std/weight | टेन्सर | (6,256) | फ्लोट32 | |
नीति/अरैखिकता | टेन्सर | डोरी | ||
नीति/आउटपुट_वितरण | टेन्सर | डोरी | ||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/जानकारी | फीचर्सडिक्ट | |||
चरण/जानकारी/कार्रवाई_लॉग_प्रोब्स | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/क्यूपीओएस | टेन्सर | (9,) | फ्लोट64 | |
चरण/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-पूर्ण-रीप्ले
डाउनलोड आकार :
277.88 MiB
डेटासेट का आकार :
171.22 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल तभी जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/जानकारी | फीचर्सडिक्ट | |||
चरण/जानकारी/कार्रवाई_लॉग_प्रोब्स | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/क्यूपीओएस | टेन्सर | (9,) | फ्लोट64 | |
चरण/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-मध्यम
डाउनलोड आकार :
226.71 MiB
डेटासेट का आकार :
451.88 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 17), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(6,), dtype=float32),
'weight': Tensor(shape=(6, 256), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
नीति | फीचर्सडिक्ट | |||
नीति/fc0 | फीचर्सडिक्ट | |||
नीति/fc0/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
पॉलिसी/fc0/वज़न | टेन्सर | (256, 17) | फ्लोट32 | |
नीति/एफसी1 | फीचर्सडिक्ट | |||
नीति/एफसी1/पूर्वाग्रह | टेन्सर | (256,) | फ्लोट32 | |
पॉलिसी/एफसी1/वेट | टेन्सर | (256, 256) | फ्लोट32 | |
नीति/last_fc | फीचर्सडिक्ट | |||
नीति/अंतिम_एफसी/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
नीति/अंतिम_एफसी/वजन | टेन्सर | (6,256) | फ्लोट32 | |
नीति/last_fc_log_std | फीचर्सडिक्ट | |||
नीति/last_fc_log_std/पूर्वाग्रह | टेन्सर | (6,) | फ्लोट32 | |
पॉलिसी/last_fc_log_std/weight | टेन्सर | (6,256) | फ्लोट32 | |
नीति/अरैखिकता | टेन्सर | डोरी | ||
नीति/आउटपुट_वितरण | टेन्सर | डोरी | ||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/जानकारी | फीचर्सडिक्ट | |||
चरण/जानकारी/कार्रवाई_लॉग_प्रोब्स | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/क्यूपीओएस | टेन्सर | (9,) | फ्लोट64 | |
चरण/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-मध्यम-विशेषज्ञ
डाउनलोड आकार :
452.58 MiB
डेटासेट का आकार :
342.37 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 2,000 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/जानकारी | फीचर्सडिक्ट | |||
चरण/जानकारी/कार्रवाई_लॉग_प्रोब्स | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/क्यूपीओएस | टेन्सर | (9,) | फ्लोट64 | |
चरण/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-मध्यम-रीप्ले
डाउनलोड आकार :
56.69 MiB
डेटासेट का आकार :
34.59 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 202 |
- फ़ीचर संरचना :
FeaturesDict({
'algorithm': string,
'iteration': int32,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कलन विधि | टेन्सर | डोरी | ||
यात्रा | टेन्सर | int32 | ||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/जानकारी | फीचर्सडिक्ट | |||
चरण/जानकारी/कार्रवाई_लॉग_प्रोब्स | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/क्यूपीओएस | टेन्सर | (9,) | फ्लोट64 | |
चरण/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
d4rl_mujoco_halfcheetah/v2-random
डाउनलोड आकार :
226.34 MiB
डेटासेट का आकार :
171.18 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): केवल तभी जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 1,000 |
- फ़ीचर संरचना :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_probs': float64,
'qpos': Tensor(shape=(9,), dtype=float64),
'qvel': Tensor(shape=(9,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(17,), dtype=float32),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
कदम | डेटासेट | |||
कदम/कार्रवाई | टेन्सर | (6,) | फ्लोट32 | |
कदम/छूट | टेन्सर | फ्लोट32 | ||
चरण/जानकारी | फीचर्सडिक्ट | |||
चरण/जानकारी/कार्रवाई_लॉग_प्रोब्स | टेन्सर | फ्लोट64 | ||
चरण/जानकारी/क्यूपीओएस | टेन्सर | (9,) | फ्लोट64 | |
चरण/जानकारी/qvel | टेन्सर | (9,) | फ्लोट64 | |
चरण/पहला है | टेन्सर | बूल | ||
चरण/अंतिम है | टेन्सर | बूल | ||
चरण/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | टेन्सर | (17,) | फ्लोट32 | |
कदम/इनाम | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):