rlu_dmlab_rooms_select_nonmatching_object

คำอธิบาย :

RL Unplugged เป็นชุดมาตรฐานสำหรับการเรียนรู้เสริมกำลังแบบออฟไลน์ RL Unplugged ได้รับการออกแบบโดยคำนึงถึงสิ่งต่อไปนี้: เพื่ออำนวยความสะดวกในการใช้งาน เราจัดเตรียมชุดข้อมูลด้วย API แบบรวม ซึ่งช่วยให้ผู้ปฏิบัติงานทำงานกับข้อมูลทั้งหมดในชุดได้ง่ายเมื่อมีการสร้างไปป์ไลน์ทั่วไป

ชุดข้อมูลเป็นไปตาม รูปแบบ RLDS เพื่อแสดงขั้นตอนและตอนต่างๆ

ชุดข้อมูล DeepMind Lab มีหลายระดับตั้งแต่ ชุดโปรแกรม Deepmind Lab ที่ท้าทายและสังเกตได้บางส่วน ชุดข้อมูล DeepMind Lab รวบรวมโดยการฝึกอบรมที่แจกจ่าย R2D2 โดย Kapturowski et al. ตัวแทนปี 2018 ตั้งแต่เริ่มต้นในแต่ละงาน เราบันทึกประสบการณ์ของนักแสดงทุกคนระหว่างการฝึกทั้งหมด 2-3 ครั้งสำหรับทุกๆ ภารกิจ รายละเอียดของกระบวนการสร้างชุดข้อมูลอธิบายไว้ใน Gulcehre et al., 2021

เราเผยแพร่ชุดข้อมูลสำหรับ DeepMind Lab ห้าระดับที่แตกต่างกัน: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object นอกจากนี้ เรายังเผยแพร่ชุดข้อมูลสแน็ปช็อตสำหรับระดับ seekavoid_arena_01 ที่เราสร้างชุดข้อมูลจากสแน็ปช็อต R2D2 ที่ผ่านการฝึกอบรมซึ่งมีเอปไซลอนในระดับต่างๆ สำหรับอัลกอริทึมเอปไซลอนที่ละโมบเมื่อทำการประเมินเอเจนต์ในสภาพแวดล้อม

ชุดข้อมูล DeepMind Lab มีขนาดค่อนข้างใหญ่ เราขอแนะนำให้คุณลองใช้หากคุณสนใจโมเดล RL ออฟไลน์ขนาดใหญ่ที่มีหน่วยความจำ

หน้าแรก : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
รหัสแหล่งที่มา : tfds.rl_unplugged.rlu_dmlab_rooms_select_nonmatching_object.RluDmlabRoomsSelectNonmatchingObject
รุ่น :
- 1.0.0 : การเปิดตัวครั้งแรก
- 1.1.0 : เพิ่ม is_last
- 1.2.0 (ค่าเริ่มต้น): แก้ไข BGR -> RGB สำหรับการสังเกตพิกเซล
ขนาดการดาวน์โหลด : Unknown size
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
โครงสร้างคุณลักษณะ :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
ตอนที่_id	เทนเซอร์		int64
ตอนที่_return	เทนเซอร์		ลอย32
ขั้นตอน	ชุดข้อมูล
ขั้นตอน/การดำเนินการ	เทนเซอร์		int64
ขั้นตอน/ส่วนลด	เทนเซอร์		ลอย32
ขั้นตอน/is_first	เทนเซอร์		บูล
ขั้นตอน/is_last	เทนเซอร์		บูล
ขั้นตอน/is_terminal	เทนเซอร์		บูล
ขั้นตอน/ข้อสังเกต	คุณสมบัติDict
ขั้นตอน/การสังเกต/last_action	เทนเซอร์		int64
ขั้นตอน/การสังเกต/last_reward	เทนเซอร์		ลอย32
ขั้นตอน/การสังเกต/พิกเซล	ภาพ	(72, 96, 3)	uint8
ขั้นตอน / รางวัล	เทนเซอร์		ลอย32

คีย์ภายใต้การดูแล (ดู as_supervised doc ): None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_select_nonmatching_object/training_0 (ค่าเริ่มต้น)

ขนาดชุดข้อมูล : 1.11 TiB
แยก :

แยก	ตัวอย่าง
`'train'`	667,349

ตัวอย่าง ( tfds.as_dataframe ):

rlu_dmlab_rooms_select_nonmatching_object/training_1

ขนาดชุดข้อมูล : 1.08 TiB
แยก :

แยก	ตัวอย่าง
`'train'`	666,923

ตัวอย่าง ( tfds.as_dataframe ):

rlu_dmlab_rooms_select_nonmatching_object/training_2

ขนาดชุดข้อมูล : 1.09 TiB
แยก :

แยก	ตัวอย่าง
`'train'`	666,927

ตัวอย่าง ( tfds.as_dataframe ):