rlu_dmlab_explore_object_rewards_few

  • বর্ণনা :

RL আনপ্লাগড হল অফলাইন রিইনফোর্সমেন্ট শেখার জন্য বেঞ্চমার্কের স্যুট। RL আনপ্লাগড নিম্নলিখিত বিবেচনার ভিত্তিতে ডিজাইন করা হয়েছে: ব্যবহারের সহজতর করার জন্য, আমরা একটি ইউনিফাইড API সহ ডেটাসেটগুলি সরবরাহ করি যা অনুশীলনকারীর পক্ষে একটি সাধারণ পাইপলাইন প্রতিষ্ঠিত হওয়ার পরে স্যুটের সমস্ত ডেটার সাথে কাজ করা সহজ করে তোলে।

ডেটাসেটগুলি ধাপ এবং পর্বগুলি উপস্থাপন করতে RLDS বিন্যাস অনুসরণ করে।

ডিপমাইন্ড ল্যাব ডেটাসেটে চ্যালেঞ্জিং, আংশিকভাবে পর্যবেক্ষণযোগ্য ডিপমাইন্ড ল্যাব স্যুট থেকে বেশ কয়েকটি স্তর রয়েছে। ডিপমাইন্ড ল্যাব ডেটাসেট সংগ্রহ করা হয় প্রশিক্ষণ বিতরণ করা R2D2 দ্বারা Kapturowski et al., 2018 এজেন্টদের স্বতন্ত্র টাস্কে শুরু থেকে। আমরা প্রতিটি কাজের জন্য কয়েকবার পুরো প্রশিক্ষণ চলাকালীন সমস্ত অভিনেতাদের অভিজ্ঞতা রেকর্ড করেছি। গুলচেহেরে এট আল।, 2021 -এ ডেটাসেট তৈরির প্রক্রিয়ার বিশদ বিবরণ দেওয়া হয়েছে।

আমরা পাঁচটি ভিন্ন ডিপমাইন্ড ল্যাব স্তরের জন্য ডেটাসেট প্রকাশ করি: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object । আমরা seekavoid_arena_01 স্তরের জন্য স্ন্যাপশট ডেটাসেটগুলিও প্রকাশ করি যা আমরা পরিবেশে এজেন্টের মূল্যায়ন করার সময় এপসিলন-লোভী অ্যালগরিদমের জন্য বিভিন্ন স্তরের এপসিলন সহ একটি প্রশিক্ষিত R2D2 স্ন্যাপশট থেকে ডেটাসেটগুলি তৈরি করেছি৷

ডিপমাইন্ড ল্যাব ডেটাসেট মোটামুটি বড় আকারের। আপনি যদি মেমরি সহ বড় আকারের অফলাইন RL মডেলগুলিতে আগ্রহী হন তবে আমরা আপনাকে এটি চেষ্টা করার পরামর্শ দিই।

বিভক্ত উদাহরণ
'train' ৮৯,১৪৪
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
episode_id টেনসর int64
পর্ব_প্রত্যাবর্তন টেনসর float32
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর int64
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ ফিচারসডিক্ট
পদক্ষেপ/পর্যবেক্ষণ/শেষ_ক্রিয়া টেনসর int64
পদক্ষেপ/পর্যবেক্ষণ/শেষ_পুরস্কার টেনসর float32
পদক্ষেপ/পর্যবেক্ষণ/পিক্সেল ছবি (৭২, ৯৬, ৩) uint8
পদক্ষেপ/পুরস্কার টেনসর float32
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (ডিফল্ট কনফিগারেশন)

  • ডেটাসেটের আকার : 847.00 GiB

  • উদাহরণ ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_1

  • ডেটাসেটের আকার : 877.76 GiB

  • উদাহরণ ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_few/training_2

  • ডেটাসেটের আকার : 836.43 GiB

  • উদাহরণ ( tfds.as_dataframe ):