- توضیحات :
RL Unplugged مجموعه ای از معیارها برای یادگیری تقویتی آفلاین است. RL Unplugged بر اساس ملاحظات زیر طراحی شده است: برای سهولت استفاده، مجموعه دادهها را با یک API یکپارچه ارائه میکنیم که کار با تمام دادههای مجموعه را پس از ایجاد خط لوله عمومی برای پزشک آسان میکند.
مجموعه داده ها از فرمت RLDS پیروی می کنند تا مراحل و قسمت ها را نشان دهند.
این وظایف از وظایف جابجایی راهرو شامل انساننمای CMU تشکیل شدهاند، که برای آن تلاشهای قبلی یا از دادههای ثبت حرکت مرل و همکاران، 2019a ، مرل و همکاران، 2019b یا آموزش از ابتدا سانگ و همکاران، 2020 استفاده کردهاند. علاوه بر این، مخزن DM Locomotion شامل مجموعهای از وظایف است که برای یک جونده مجازی مرل و همکاران، 2020 مناسب است. ما تأکید می کنیم که وظایف DM Locomotion ترکیبی از کنترل مداوم چالش برانگیز با DoF بالا همراه با درک از مشاهدات خود محور غنی است. برای جزئیات بیشتر در مورد نحوه تولید مجموعه داده، لطفاً به مقاله مراجعه کنید.
اگر به مجموعه دادههای RL آفلاین بسیار چالش برانگیز با فضای عمل پیوسته علاقه دارید، توصیه میکنیم روشهای RL آفلاین را در مجموعه داده DeepMind Locomotion امتحان کنید.
صفحه اصلی : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
اندازه دانلود :
Unknown size
ذخیره خودکار ( اسناد ): خیر
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@inproceedings{gulcehre2020rl,
title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
booktitle = {Advances in Neural Information Processing Systems},
pages = {7248--7259},
volume = {33},
year = {2020}
}
rlu_locomotion/humanoid_corridor (پیکربندی پیشفرض)
حجم مجموعه داده :
1.88 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 4000 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (56،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
قدم ها/مشاهده/واکر | FeaturesDict | |||
مراحل/مشاهده/واکر/قد_بدن | تانسور | (1،) | float32 | |
مراحل/مشاهده/واکر/دوربین_خودمحور | تصویر | (64، 64، 3) | uint8 | |
Steps/observation/walker/end_effectors_pos | تانسور | (12،) | float32 | |
steps/observation/walker/joints_pos | تانسور | (56،) | float32 | |
steps/observation/walker/joints_vel | تانسور | (56،) | float32 | |
steps/observation/walker/sensors_accelerometer | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_gyro | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_velocimeter | تانسور | (3،) | float32 | |
steps/observation/walker/world_zaxis | تانسور | (3،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_locomotion/humanoid_gaps
حجم مجموعه داده :
4.57 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 8000 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (56،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
قدم ها/مشاهده/واکر | FeaturesDict | |||
مراحل/مشاهده/واکر/قد_بدن | تانسور | (1،) | float32 | |
مراحل/مشاهده/واکر/دوربین_خودمحور | تصویر | (64، 64، 3) | uint8 | |
Steps/observation/walker/end_effectors_pos | تانسور | (12،) | float32 | |
steps/observation/walker/joints_pos | تانسور | (56،) | float32 | |
steps/observation/walker/joints_vel | تانسور | (56،) | float32 | |
steps/observation/walker/sensors_accelerometer | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_gyro | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_velocimeter | تانسور | (3،) | float32 | |
steps/observation/walker/world_zaxis | تانسور | (3،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_locomotion/humanoid_walls
حجم مجموعه داده :
2.36 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 4000 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (56،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
قدم ها/مشاهده/واکر | FeaturesDict | |||
مراحل/مشاهده/واکر/قد_بدن | تانسور | (1،) | float32 | |
مراحل/مشاهده/واکر/دوربین_خودمحور | تصویر | (64، 64، 3) | uint8 | |
Steps/observation/walker/end_effectors_pos | تانسور | (12،) | float32 | |
steps/observation/walker/joints_pos | تانسور | (56،) | float32 | |
steps/observation/walker/joints_vel | تانسور | (56،) | float32 | |
steps/observation/walker/sensors_accelerometer | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_gyro | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_velocimeter | تانسور | (3،) | float32 | |
steps/observation/walker/world_zaxis | تانسور | (3،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_locomotion/rodent_bowl_escape
حجم مجموعه داده :
16.46 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 2000 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (38،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
قدم ها/مشاهده/واکر | FeaturesDict | |||
steps/observation/walker/appendages_pos | تانسور | (15،) | float32 | |
مراحل/مشاهده/واکر/دوربین_خودمحور | تصویر | (64، 64، 3) | uint8 | |
steps/observation/walker/joints_pos | تانسور | (30،) | float32 | |
steps/observation/walker/joints_vel | تانسور | (30،) | float32 | |
steps/observation/walker/sensors_accelerometer | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_gyro | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_touch | تانسور | (4،) | float32 | |
steps/observation/walker/sensors_velocimeter | تانسور | (3،) | float32 | |
steps/observation/walker/tendons_pos | تانسور | (8،) | float32 | |
steps/observation/walker/tendons_vel | تانسور | (8،) | float32 | |
steps/observation/walker/world_zaxis | تانسور | (3،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_locomotion/rodent_gaps
حجم مجموعه داده :
8.90 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 2000 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (38،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
قدم ها/مشاهده/واکر | FeaturesDict | |||
steps/observation/walker/appendages_pos | تانسور | (15،) | float32 | |
مراحل/مشاهده/واکر/دوربین_خودمحور | تصویر | (64، 64، 3) | uint8 | |
steps/observation/walker/joints_pos | تانسور | (30،) | float32 | |
steps/observation/walker/joints_vel | تانسور | (30،) | float32 | |
steps/observation/walker/sensors_accelerometer | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_gyro | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_touch | تانسور | (4،) | float32 | |
steps/observation/walker/sensors_velocimeter | تانسور | (3،) | float32 | |
steps/observation/walker/tendons_pos | تانسور | (8،) | float32 | |
steps/observation/walker/tendons_vel | تانسور | (8،) | float32 | |
steps/observation/walker/world_zaxis | تانسور | (3،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_locomotion/rodent_mazes
حجم مجموعه داده :
20.71 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 2000 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (38،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
قدم ها/مشاهده/واکر | FeaturesDict | |||
steps/observation/walker/appendages_pos | تانسور | (15،) | float32 | |
مراحل/مشاهده/واکر/دوربین_خودمحور | تصویر | (64، 64، 3) | uint8 | |
steps/observation/walker/joints_pos | تانسور | (30،) | float32 | |
steps/observation/walker/joints_vel | تانسور | (30،) | float32 | |
steps/observation/walker/sensors_accelerometer | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_gyro | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_touch | تانسور | (4،) | float32 | |
steps/observation/walker/sensors_velocimeter | تانسور | (3،) | float32 | |
steps/observation/walker/tendons_pos | تانسور | (8،) | float32 | |
steps/observation/walker/tendons_vel | تانسور | (8،) | float32 | |
steps/observation/walker/world_zaxis | تانسور | (3،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):
rlu_locomotion/rodent_two_touch
حجم مجموعه داده :
23.05 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 2000 |
- ساختار ویژگی :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
قسمت_id | تانسور | int64 | ||
مراحل | مجموعه داده | |||
مراحل/عمل | تانسور | (38،) | float32 | |
مراحل/تخفیف | تانسور | float32 | ||
Steps/is_first | تانسور | بوول | ||
Steps/is_last | تانسور | بوول | ||
Steps/is_terminal | تانسور | بوول | ||
مراحل / مشاهده | FeaturesDict | |||
قدم ها/مشاهده/واکر | FeaturesDict | |||
steps/observation/walker/appendages_pos | تانسور | (15،) | float32 | |
مراحل/مشاهده/واکر/دوربین_خودمحور | تصویر | (64، 64، 3) | uint8 | |
steps/observation/walker/joints_pos | تانسور | (30،) | float32 | |
steps/observation/walker/joints_vel | تانسور | (30،) | float32 | |
steps/observation/walker/sensors_accelerometer | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_gyro | تانسور | (3،) | float32 | |
steps/observation/walker/sensors_touch | تانسور | (4،) | float32 | |
steps/observation/walker/sensors_velocimeter | تانسور | (3،) | float32 | |
steps/observation/walker/tendons_pos | تانسور | (8،) | float32 | |
steps/observation/walker/tendons_vel | تانسور | (8،) | float32 | |
steps/observation/walker/world_zaxis | تانسور | (3،) | float32 | |
مراحل/پاداش | تانسور | float32 | ||
مهر زمانی | تانسور | int64 |
- مثالها ( tfds.as_dataframe ):