rlu_dmlab_explore_object_rewards_fow

תיאור :

RL Unplugged היא חבילת אמות מידה ללימוד חיזוק לא מקוון. ה-RL Unplugged מתוכנן סביב השיקולים הבאים: כדי להקל על השימוש, אנו מספקים למערכי נתונים עם API מאוחד אשר מקל על המתרגל לעבוד עם כל הנתונים בחבילה לאחר הקמת צינור כללי.

מערכי הנתונים פועלים לפי פורמט RLDS כדי לייצג שלבים ופרקים.

למערך הנתונים של DeepMind Lab יש כמה רמות מחבילת Deepmind Lab המאתגרת, הניתנת לצפייה חלקית. מערך הנתונים של DeepMind Lab נאסף על ידי הכשרה המופצת R2D2 על ידי סוכנים Kapturowski et al., 2018 מאפס במשימות בודדות. הקלטנו את החוויה של כל השחקנים במהלך ריצות אימון שלמות כמה פעמים עבור כל משימה. הפרטים של תהליך יצירת הנתונים מתוארים ב- Gulcehre et al., 2021 .

אנו משחררים מערכי נתונים עבור חמש רמות שונות של DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . אנו משחררים גם את מערכי הנתונים של תמונת המצב עבור רמת seekavoid_arena_01 שיצרנו את מערכי הנתונים מתמונת מצב R2D2 מאומנת עם רמות שונות של אפסילון עבור האלגוריתם החמדני לאפסילון בעת הערכת הסוכן בסביבה.

מערך הנתונים של DeepMind Lab הוא בקנה מידה גדול למדי. אנו ממליצים לך לנסות את זה אם אתה מעוניין בדגמי RL לא מקוונים בקנה מידה גדול עם זיכרון.

דף הבית : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
קוד מקור : tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
גרסאות :
- 1.0.0 : שחרור ראשוני.
- 1.1.0 : נוסף is_last.
- 1.2.0 (ברירת מחדל): BGR -> תיקון RGB לתצפיות בפיקסלים.
גודל הורדה : Unknown size
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :

לְפַצֵל	דוגמאות
`'train'`	89,144

מבנה תכונה :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

תיעוד תכונה :

תכונה	מעמד	צוּרָה	Dtype
	FeaturesDict
פרק_מזהה	מוֹתֵחַ		int64
episode_return	מוֹתֵחַ		לצוף32
צעדים	מערך נתונים
צעדים/פעולה	מוֹתֵחַ		int64
צעדים/הנחה	מוֹתֵחַ		לצוף32
צעדים/הוא_ראשון	מוֹתֵחַ		bool
צעדים/הוא_אחרון	מוֹתֵחַ		bool
steps/is_terminal	מוֹתֵחַ		bool
צעדים/תצפית	FeaturesDict
צעדים/תצפית/פעולה_אחרונה	מוֹתֵחַ		int64
צעדים/תצפית/תגמול_אחרון	מוֹתֵחַ		לצוף32
צעדים/תצפית/פיקסלים	תמונה	(72, 96, 3)	uint8
צעדים/פרס	מוֹתֵחַ		לצוף32

מפתחות בפיקוח (ראה as_supervised doc ): None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (תצורת ברירת המחדל)

גודל מערך נתונים : 847.00 GiB
דוגמאות ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_pow/training_1

גודל מערך נתונים : 877.76 GiB
דוגמאות ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_pow/training_2

גודל מערך נתונים : 836.43 GiB
דוגמאות ( tfds.as_dataframe ):

rlu_dmlab_explore_object_rewards_fow קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

rlu_dmlab_explore_object_rewards_few/training_0 (תצורת ברירת המחדל)

rlu_dmlab_explore_object_rewards_pow/training_1

rlu_dmlab_explore_object_rewards_pow/training_2

rlu_dmlab_explore_object_rewards_fow