- বর্ণনা :
RL আনপ্লাগড হল অফলাইন রিইনফোর্সমেন্ট শেখার জন্য বেঞ্চমার্কের স্যুট। RL আনপ্লাগড নিম্নলিখিত বিবেচনার ভিত্তিতে ডিজাইন করা হয়েছে: ব্যবহারের সহজতর করার জন্য, আমরা একটি ইউনিফাইড API সহ ডেটাসেটগুলি সরবরাহ করি যা অনুশীলনকারীর পক্ষে একটি সাধারণ পাইপলাইন প্রতিষ্ঠিত হওয়ার পরে স্যুটের সমস্ত ডেটার সাথে কাজ করা সহজ করে তোলে।
ডেটাসেটগুলি ধাপ এবং পর্বগুলি উপস্থাপন করতে RLDS বিন্যাস অনুসরণ করে।
ডিপমাইন্ড ল্যাব ডেটাসেটে চ্যালেঞ্জিং, আংশিকভাবে পর্যবেক্ষণযোগ্য ডিপমাইন্ড ল্যাব স্যুট থেকে বেশ কয়েকটি স্তর রয়েছে। ডিপমাইন্ড ল্যাব ডেটাসেট সংগ্রহ করা হয় প্রশিক্ষণ বিতরণ করা R2D2 দ্বারা Kapturowski et al., 2018 এজেন্টদের স্বতন্ত্র টাস্কে শুরু থেকে। আমরা প্রতিটি কাজের জন্য কয়েকবার পুরো প্রশিক্ষণ চলাকালীন সমস্ত অভিনেতাদের অভিজ্ঞতা রেকর্ড করেছি। গুলচেহেরে এট আল।, 2021 -এ ডেটাসেট তৈরির প্রক্রিয়ার বিশদ বিবরণ দেওয়া হয়েছে।
আমরা পাঁচটি ভিন্ন ডিপমাইন্ড ল্যাব স্তরের জন্য ডেটাসেট প্রকাশ করি: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
। আমরা seekavoid_arena_01
স্তরের জন্য স্ন্যাপশট ডেটাসেটগুলিও প্রকাশ করি যা আমরা পরিবেশে এজেন্টের মূল্যায়ন করার সময় এপসিলন-লোভী অ্যালগরিদমের জন্য বিভিন্ন স্তরের এপসিলন সহ একটি প্রশিক্ষিত R2D2 স্ন্যাপশট থেকে ডেটাসেটগুলি তৈরি করেছি৷
ডিপমাইন্ড ল্যাব ডেটাসেট মোটামুটি বড় আকারের। আপনি যদি মেমরি সহ বড় আকারের অফলাইন RL মডেলগুলিতে আগ্রহী হন তবে আমরা আপনাকে এটি চেষ্টা করার পরামর্শ দিই।
হোমপেজ : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
সোর্স কোড :
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
সংস্করণ :
-
1.0.0
: প্রাথমিক প্রকাশ। -
1.1.0
: যোগ করা হয়েছে_শেষ। -
1.2.0
(ডিফল্ট): পিক্সেল পর্যবেক্ষণের জন্য BGR -> RGB ফিক্স।
-
ডাউনলোড আকার :
Unknown size
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | ৮৯,১৪৪ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
episode_id | টেনসর | int64 | ||
পর্ব_প্রত্যাবর্তন | টেনসর | float32 | ||
পদক্ষেপ | ডেটাসেট | |||
পদক্ষেপ/ক্রিয়া | টেনসর | int64 | ||
পদক্ষেপ/ছাড় | টেনসর | float32 | ||
steps/is_first | টেনসর | bool | ||
ধাপ/শেষ_শেষ | টেনসর | bool | ||
steps/is_terminal | টেনসর | bool | ||
পদক্ষেপ/পর্যবেক্ষণ | ফিচারসডিক্ট | |||
পদক্ষেপ/পর্যবেক্ষণ/শেষ_ক্রিয়া | টেনসর | int64 | ||
পদক্ষেপ/পর্যবেক্ষণ/শেষ_পুরস্কার | টেনসর | float32 | ||
পদক্ষেপ/পর্যবেক্ষণ/পিক্সেল | ছবি | (৭২, ৯৬, ৩) | uint8 | |
পদক্ষেপ/পুরস্কার | টেনসর | float32 |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_few/training_0 (ডিফল্ট কনফিগারেশন)
ডেটাসেটের আকার :
847.00 GiB
উদাহরণ ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_1
ডেটাসেটের আকার :
877.76 GiB
উদাহরণ ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_2
ডেটাসেটের আকার :
836.43 GiB
উদাহরণ ( tfds.as_dataframe ):