rlu_dmlab_explore_object_rewards_fow

  • תיאור :

RL Unplugged היא חבילת אמות מידה ללימוד חיזוק לא מקוון. ה-RL Unplugged מתוכנן סביב השיקולים הבאים: כדי להקל על השימוש, אנו מספקים למערכי נתונים עם API מאוחד אשר מקל על המתרגל לעבוד עם כל הנתונים בחבילה לאחר הקמת צינור כללי.

מערכי הנתונים פועלים לפי פורמט RLDS כדי לייצג שלבים ופרקים.

למערך הנתונים של DeepMind Lab יש כמה רמות מחבילת Deepmind Lab המאתגרת, הניתנת לצפייה חלקית. מערך הנתונים של DeepMind Lab נאסף על ידי הכשרה המופצת R2D2 על ידי סוכנים Kapturowski et al., 2018 מאפס במשימות בודדות. הקלטנו את החוויה של כל השחקנים במהלך ריצות אימון שלמות כמה פעמים עבור כל משימה. הפרטים של תהליך יצירת הנתונים מתוארים ב- Gulcehre et al., 2021 .

אנו משחררים מערכי נתונים עבור חמש רמות שונות של DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . אנו משחררים גם את מערכי הנתונים של תמונת המצב עבור רמת seekavoid_arena_01 שיצרנו את מערכי הנתונים מתמונת מצב R2D2 מאומנת עם רמות שונות של אפסילון עבור האלגוריתם החמדני לאפסילון בעת ​​הערכת הסוכן בסביבה.

מערך הנתונים של DeepMind Lab הוא בקנה מידה גדול למדי. אנו ממליצים לך לנסות את זה אם אתה מעוניין בדגמי RL לא מקוונים בקנה מידה גדול עם זיכרון.

לְפַצֵל דוגמאות
'train' 89,144
  • מבנה תכונה :
FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פרק_מזהה מוֹתֵחַ int64
episode_return מוֹתֵחַ לצוף32
צעדים מערך נתונים
צעדים/פעולה מוֹתֵחַ int64
צעדים/הנחה מוֹתֵחַ לצוף32
צעדים/הוא_ראשון מוֹתֵחַ bool
צעדים/הוא_אחרון מוֹתֵחַ bool
steps/is_terminal מוֹתֵחַ bool
צעדים/תצפית FeaturesDict
צעדים/תצפית/פעולה_אחרונה מוֹתֵחַ int64
צעדים/תצפית/תגמול_אחרון מוֹתֵחַ לצוף32
צעדים/תצפית/פיקסלים תמונה (72, 96, 3) uint8
צעדים/פרס מוֹתֵחַ לצוף32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (תצורת ברירת המחדל)

rlu_dmlab_explore_object_rewards_pow/training_1

rlu_dmlab_explore_object_rewards_pow/training_2