- विवरण :
आरएल अनप्लग्ड ऑफ़लाइन रीइन्फोर्समेंट लर्निंग के लिए बेंचमार्क का सूट है। आरएल अनप्लग्ड को निम्नलिखित विचारों के आसपास डिज़ाइन किया गया है: उपयोग में आसानी के लिए, हम एक एकीकृत एपीआई के साथ डेटासेट प्रदान करते हैं जो सामान्य पाइपलाइन स्थापित होने के बाद व्यवसायी के लिए सूट में सभी डेटा के साथ काम करना आसान बनाता है।
डेटासेट चरण और एपिसोड का प्रतिनिधित्व करने के लिए आरएलडीएस प्रारूप का पालन करते हैं।
डीपमाइंड लैब डेटासेट में चुनौतीपूर्ण, आंशिक रूप से देखने योग्य डीपमाइंड लैब सूट से कई स्तर हैं। डीपमाइंड लैब डेटासेट को व्यक्तिगत कार्यों पर खरोंच से Kapturowski et al।, 2018 एजेंटों द्वारा वितरित R2D2 प्रशिक्षण द्वारा एकत्र किया जाता है। हमने संपूर्ण प्रशिक्षण के दौरान प्रत्येक कार्य के लिए कई बार सभी अभिनेताओं के अनुभव को रिकॉर्ड किया। डेटासेट बनाने की प्रक्रिया का विवरण गुलशेरे एट अल., 2021 में वर्णित है।
हम पांच अलग-अलग डीपमाइंड लैब स्तरों के लिए डेटासेट जारी करते हैं: seekavoid_arena_01
, rooms_watermaze
rooms_select_nonmatching_object
explore_rewards_few
explore_rewards_many
हम seekavoid_arena_01
स्तर के लिए स्नैपशॉट डेटासेट भी जारी करते हैं जिसे हमने पर्यावरण में एजेंट का मूल्यांकन करते समय एप्सिलॉन-लालची एल्गोरिथ्म के लिए एप्सिलॉन के विभिन्न स्तरों के साथ एक प्रशिक्षित R2D2 स्नैपशॉट से डेटासेट उत्पन्न किया।
डीपमाइंड लैब डेटासेट काफी बड़े पैमाने पर है। यदि आप स्मृति के साथ बड़े पैमाने पर ऑफ़लाइन आरएल मॉडल में रुचि रखते हैं, तो हम आपको इसे आज़माने की सलाह देते हैं।
मुखपृष्ठ : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
स्रोत कोड :
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
संस्करण :
-
1.0.0
: प्रारंभिक रिलीज। -
1.1.0
: is_last जोड़ा गया। -
1.2.0
(डिफ़ॉल्ट): बीजीआर -> पिक्सेल अवलोकन के लिए आरजीबी फिक्स।
-
डाउनलोड आकार :
Unknown size
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 89,144 |
- फ़ीचर संरचना :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
प्रकरण_आईडी | टेन्सर | int64 | ||
प्रकरण_वापसी | टेन्सर | फ्लोट32 | ||
कदम | डेटासेट | |||
कदम / कार्रवाई | टेन्सर | int64 | ||
चरण/छूट | टेन्सर | फ्लोट32 | ||
चरण/is_first | टेन्सर | बूल | ||
चरण/is_last | टेन्सर | बूल | ||
कदम/is_terminal | टेन्सर | बूल | ||
चरण/अवलोकन | विशेषताएं डिक्ट | |||
चरण/अवलोकन/last_action | टेन्सर | int64 | ||
चरण/अवलोकन/last_reward | टेन्सर | फ्लोट32 | ||
चरण/अवलोकन/पिक्सेल | छवि | (72, 96, 3) | uint8 | |
कदम / इनाम | टेन्सर | फ्लोट32 |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_few/training_0 (डिफ़ॉल्ट कॉन्फ़िगरेशन)
डेटासेट का आकार :
847.00 GiB
उदाहरण ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_1
डेटासेट का आकार :
877.76 GiB
उदाहरण ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_2
डेटासेट का आकार :
836.43 GiB
उदाहरण ( tfds.as_dataframe ):