rlu_dmlab_explore_object_rewards_many

الوصف :

RL Unplugged عبارة عن مجموعة من المعايير للتعلم المعزز في وضع عدم الاتصال. تم تصميم RL Unplugged حول الاعتبارات التالية: لتسهيل الاستخدام ، نوفر مجموعات البيانات بواجهة برمجة تطبيقات موحدة تسهل على الممارس العمل مع جميع البيانات الموجودة في المجموعة بمجرد إنشاء خط أنابيب عام.

تتبع مجموعات البيانات تنسيق RLDS لتمثيل الخطوات والحلقات.

تحتوي مجموعة بيانات DeepMind Lab على عدة مستويات من مجموعة Deepmind Lab الصعبة والتي يمكن ملاحظتها جزئيًا. يتم جمع مجموعة بيانات DeepMind Lab عن طريق التدريب الموزع على R2D2 بواسطة Kapturowski et al. ، 2018 وكلاء من الصفر في المهام الفردية. لقد سجلنا التجربة عبر جميع الممثلين أثناء تشغيل التدريب بالكامل عدة مرات لكل مهمة. تم وصف تفاصيل عملية إنشاء مجموعة البيانات في Gulcehre et al. ، 2021 .

قمنا بإصدار مجموعات بيانات لخمسة مستويات مختلفة من مختبر DeepMind: seekavoid_arena_01 ، explore_rewards_few ، explore_rewards_many ، rooms_watermaze ، rooms_select_nonmatching_object . قمنا أيضًا بإصدار مجموعات بيانات اللقطة لمستوى seekavoid_arena_01 الذي أنشأنا مجموعات البيانات من لقطة R2D2 مدربة بمستويات مختلفة من إبسيلون لخوارزمية إبسيلون-الجشع عند تقييم العامل في البيئة.

مجموعة بيانات DeepMind Lab واسعة النطاق إلى حد ما. نوصيك بتجربتها إذا كنت مهتمًا بنماذج RL غير المتصلة بالإنترنت ذات الذاكرة.

الصفحة الرئيسية : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
كود المصدر : tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_many.RluDmlabExploreObjectRewardsMany
إصدارات :
- 1.0.0 : الإصدار الأولي.
- 1.1.0 : تمت الإضافة is_last.
- 1.2.0 (افتراضي): BGR -> إصلاح RGB لملاحظات البكسل.
حجم التنزيل : Unknown size
التخزين المؤقت التلقائي ( التوثيق ): لا
هيكل الميزة :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع
	الميزات
معرّف_حلقة	موتر		int64
الحلقة_العودة	موتر		تعويم 32
خطوات	مجموعة البيانات
خطوات / عمل	موتر		int64
خطوات / خصم	موتر		تعويم 32
الخطوات / is_first	موتر		منطقي
الخطوات / is_last	موتر		منطقي
الخطوات / is_terminal	موتر		منطقي
خطوات / ملاحظة	الميزات
الخطوات / الملاحظة / الإجراء الأخير	موتر		int64
الخطوات / الملاحظة / المكافأة الأخيرة	موتر		تعويم 32
خطوات / ملاحظة / بكسل	صورة	(72 ، 96 ، 3)	uint8
خطوات / مكافأة	موتر		تعويم 32

المفاتيح الخاضعة للإشراف (انظر المستند as_supervised ): None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_many / training_0 (التكوين الافتراضي)

حجم مجموعة البيانات : 1.51 TiB
الانقسامات :

انشق، مزق	أمثلة
`'train'`	111.370

أمثلة ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_many / training_1

حجم مجموعة البيانات : 1.44 TiB
الانقسامات :

انشق، مزق	أمثلة
`'train'`	111367

أمثلة ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_many / تدريب_2

حجم مجموعة البيانات : 1.48 TiB
الانقسامات :

انشق، مزق	أمثلة
`'train'`	111367

أمثلة ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_many تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

rlu_dmlab_explore_object_rewards_many / training_0 (التكوين الافتراضي)

rlu_dmlab_explore_object_rewards_many / training_1

rlu_dmlab_explore_object_rewards_many / تدريب_2

rlu_dmlab_explore_object_rewards_many