- توضیحات :
RL Unplugged مجموعه ای از معیارها برای یادگیری تقویتی آفلاین است. RL Unplugged بر اساس ملاحظات زیر طراحی شده است: برای سهولت استفاده، مجموعه دادهها را با یک API یکپارچه ارائه میکنیم که کار با تمام دادههای مجموعه را پس از ایجاد خط لوله عمومی برای پزشک آسان میکند.
مجموعه داده ها از فرمت RLDS پیروی می کنند تا مراحل و قسمت ها را نشان دهند.
مجموعه داده DeepMind Lab دارای چندین سطح از مجموعه چالش برانگیز و نیمه قابل مشاهده Deepmind Lab است . مجموعه داده های آزمایشگاه DeepMind با آموزش توزیع شده R2D2 توسط Kapturowski و همکاران، عوامل 2018 از ابتدا در وظایف فردی جمع آوری شده است. ما تجربه را در تمام بازیگران در طول دوره های آموزشی چند بار برای هر کار ثبت کردیم. جزئیات فرآیند تولید مجموعه داده در Gulcehre و همکاران، 2021 توضیح داده شده است.
مجموعه دادههایی را برای پنج سطح مختلف DeepMind Lab منتشر میکنیم: seekavoid_arena_01
، explore_rewards_few
، explore_rewards_many
، rooms_watermaze
، rooms_select_nonmatching_object
. ما همچنین مجموعه دادههای عکس فوری را برای سطح seekavoid_arena_01
میکنیم که مجموعه دادهها را از یک عکس فوری R2D2 با سطوح مختلف اپسیلون برای الگوریتم epsilon-greedy هنگام ارزیابی عامل در محیط تولید کردیم.
مجموعه داده DeepMind Lab نسبتاً بزرگ است. توصیه می کنیم اگر به مدل های RL آفلاین در مقیاس بزرگ با حافظه علاقه دارید آن را امتحان کنید.
صفحه اصلی : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
کد منبع :
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
نسخه ها :
-
1.0.0
: انتشار اولیه. -
1.1.0
: is_last اضافه شد. -
1.2.0
(پیشفرض): BGR -> RGB اصلاح برای مشاهدات پیکسل.
-
اندازه دانلود :
Unknown size
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 89,144 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
قسمت_بازگشت | تانسور | float32 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | int64 | ||
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
مراحل/مشاهده/آخرین_عمل | تانسور | int64 | ||
مراحل/مشاهده/آخرین_پاداش | تانسور | float32 | ||
مراحل / مشاهده / پیکسل | تصویر | (72، 96، 3) | uint8 | |
مراحل/پاداش | تانسور | float32 |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_few/training_0 (پیکربندی پیش فرض)
حجم مجموعه داده :
847.00 GiB
مثالها ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_1
حجم مجموعه داده :
877.76 GiB
مثالها ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_2
حجم مجموعه داده :
836.43 GiB
مثالها ( tfds.as_dataframe ):