- الوصف :
RL Unplugged عبارة عن مجموعة من المعايير للتعلم المعزز في وضع عدم الاتصال. تم تصميم RL Unplugged حول الاعتبارات التالية: لتسهيل الاستخدام ، نوفر مجموعات البيانات بواجهة برمجة تطبيقات موحدة تسهل على الممارس العمل مع جميع البيانات الموجودة في المجموعة بمجرد إنشاء خط أنابيب عام.
تتبع مجموعات البيانات تنسيق RLDS لتمثيل الخطوات والحلقات.
DeepMind Control Suite Tassa et al. ، 2018 عبارة عن مجموعة من مهام التحكم التي تم تنفيذها في MuJoCo Todorov et al. ، 2012 . نحن نعتبر مجموعة فرعية من المهام المتوفرة في المجموعة والتي تغطي مجموعة واسعة من الصعوبات.
يتم إنشاء معظم مجموعات البيانات في هذا المجال باستخدام D4PG. بالنسبة للبيئات ، أدخل كرة Manipulator وربط إدراج Manipulator ، نستخدم V-MPO Song et al. ، 2020 لتوليد البيانات نظرًا لأن D4PG غير قادر على حل هذه المهام. أصدرنا مجموعات بيانات لـ 9 مهام لمجموعة التحكم. للحصول على تفاصيل حول كيفية إنشاء مجموعة البيانات ، يرجى الرجوع إلى الورقة.
برنامج DeepMind Control Suite عبارة عن معيار RL للحركة المستمرة التقليدية. على وجه الخصوص ، نوصيك باختبار نهجك في DeepMind Control Suite إذا كنت مهتمًا بالمقارنة مع طرق RL الأخرى غير المتصلة بالإنترنت.
الصفحة الرئيسية : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
كود المصدر :
tfds.rl_unplugged.rlu_control_suite.RluControlSuite
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التنزيل :
Unknown size
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{gulcehre2020rl,
title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
booktitle = {Advances in Neural Information Processing Systems},
pages = {7248--7259},
volume = {33},
year = {2020}
}
rlu_control_suite / cartpole_swingup (التكوين الافتراضي)
حجم مجموعة البيانات :
2.12 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 40 |
- هيكل الميزة :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
معرّف_حلقة | موتر | int64 | ||
خطوات | مجموعة البيانات | |||
خطوات / عمل | موتر | (1 ،) | تعويم 32 | |
خطوات / خصم | موتر | تعويم 32 | ||
الخطوات / is_first | موتر | منطقي | ||
الخطوات / is_last | موتر | منطقي | ||
الخطوات / is_terminal | موتر | منطقي | ||
خطوات / ملاحظة | الميزات | |||
الخطوات / الملاحظة / الموقف | موتر | (3 ،) | تعويم 32 | |
الخطوات / الملاحظة / السرعة | موتر | (2 ،) | تعويم 32 | |
خطوات / مكافأة | موتر | تعويم 32 | ||
الطابع الزمني | موتر | int64 |
- أمثلة ( tfds.as_dataframe ):
rlu_control_suite / cheetah_run
حجم مجموعة البيانات :
36.58 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 300 |
- هيكل الميزة :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(8,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
معرّف_حلقة | موتر | int64 | ||
خطوات | مجموعة البيانات | |||
خطوات / عمل | موتر | (6 ،) | تعويم 32 | |
خطوات / خصم | موتر | تعويم 32 | ||
الخطوات / is_first | موتر | منطقي | ||
الخطوات / is_last | موتر | منطقي | ||
الخطوات / is_terminal | موتر | منطقي | ||
خطوات / ملاحظة | الميزات | |||
الخطوات / الملاحظة / الموقف | موتر | (8 ،) | تعويم 32 | |
الخطوات / الملاحظة / السرعة | موتر | (9 ،) | تعويم 32 | |
خطوات / مكافأة | موتر | تعويم 32 | ||
الطابع الزمني | موتر | int64 |
- أمثلة ( tfds.as_dataframe ):
rlu_control_suite / finger_turn_hard
حجم مجموعة البيانات :
47.61 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 500 |
- هيكل الميزة :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(2,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dist_to_target': Tensor(shape=(1,), dtype=float32),
'position': Tensor(shape=(4,), dtype=float32),
'target_position': Tensor(shape=(2,), dtype=float32),
'velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
معرّف_حلقة | موتر | int64 | ||
خطوات | مجموعة البيانات | |||
خطوات / عمل | موتر | (2 ،) | تعويم 32 | |
خطوات / خصم | موتر | تعويم 32 | ||
الخطوات / is_first | موتر | منطقي | ||
الخطوات / is_last | موتر | منطقي | ||
الخطوات / is_terminal | موتر | منطقي | ||
خطوات / ملاحظة | الميزات | |||
الخطوات / الملاحظة / dist_to_target | موتر | (1 ،) | تعويم 32 | |
الخطوات / الملاحظة / الموقف | موتر | (4 ،) | تعويم 32 | |
الخطوات / الملاحظة / الهدف_وضعية | موتر | (2 ،) | تعويم 32 | |
الخطوات / الملاحظة / السرعة | موتر | (3 ،) | تعويم 32 | |
خطوات / مكافأة | موتر | تعويم 32 | ||
الطابع الزمني | موتر | int64 |
- أمثلة ( tfds.as_dataframe ):
rlu_control_suite / fish_swim
حجم مجموعة البيانات :
32.81 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 200 |
- هيكل الميزة :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'joint_angles': Tensor(shape=(7,), dtype=float32),
'target': Tensor(shape=(3,), dtype=float32),
'upright': Tensor(shape=(1,), dtype=float32),
'velocity': Tensor(shape=(13,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
معرّف_حلقة | موتر | int64 | ||
خطوات | مجموعة البيانات | |||
خطوات / عمل | موتر | (5 ،) | تعويم 32 | |
خطوات / خصم | موتر | تعويم 32 | ||
الخطوات / is_first | موتر | منطقي | ||
الخطوات / is_last | موتر | منطقي | ||
الخطوات / is_terminal | موتر | منطقي | ||
خطوات / ملاحظة | الميزات | |||
الخطوات / الملاحظة / الزوايا المشتركة | موتر | (7 ،) | تعويم 32 | |
الخطوات / الملاحظة / الهدف | موتر | (3 ،) | تعويم 32 | |
خطوات / مراقبة / تستقيم | موتر | (1 ،) | تعويم 32 | |
الخطوات / الملاحظة / السرعة | موتر | (13 ،) | تعويم 32 | |
خطوات / مكافأة | موتر | تعويم 32 | ||
الطابع الزمني | موتر | int64 |
- أمثلة ( tfds.as_dataframe ):
rlu_control_suite / humanoid_run
حجم مجموعة البيانات :
1.21 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 3000 |
- هيكل الميزة :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
معرّف_حلقة | موتر | int64 | ||
خطوات | مجموعة البيانات | |||
خطوات / عمل | موتر | (21 ،) | تعويم 32 | |
خطوات / خصم | موتر | تعويم 32 | ||
الخطوات / is_first | موتر | منطقي | ||
الخطوات / is_last | موتر | منطقي | ||
الخطوات / is_terminal | موتر | منطقي | ||
خطوات / ملاحظة | الميزات | |||
الخطوات / الملاحظة / com_velocity | موتر | (3 ،) | تعويم 32 | |
الخطوات / الملاحظة / الأطراف | موتر | (12 ،) | تعويم 32 | |
الخطوات / الملاحظة / ارتفاع الرأس | موتر | (1 ،) | تعويم 32 | |
الخطوات / الملاحظة / الزوايا المشتركة | موتر | (21 ،) | تعويم 32 | |
خطوات / ملاحظة / جذع_ عمودي | موتر | (3 ،) | تعويم 32 | |
الخطوات / الملاحظة / السرعة | موتر | (27 ،) | تعويم 32 | |
خطوات / مكافأة | موتر | تعويم 32 | ||
الطابع الزمني | موتر | int64 |
- أمثلة ( tfds.as_dataframe ):
rlu_control_suite / manipulator_insert_ball
حجم مجموعة البيانات :
385.41 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 1500 |
- هيكل الميزة :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
معرّف_حلقة | موتر | int64 | ||
خطوات | مجموعة البيانات | |||
خطوات / عمل | موتر | (5 ،) | تعويم 32 | |
خطوات / خصم | موتر | تعويم 32 | ||
الخطوات / is_first | موتر | منطقي | ||
الخطوات / is_last | موتر | منطقي | ||
الخطوات / is_terminal | موتر | منطقي | ||
خطوات / ملاحظة | الميزات | |||
خطوات / مراقبة / arm_pos | موتر | (16 ،) | تعويم 32 | |
الخطوات / الملاحظة / arm_vel | موتر | (8 ،) | تعويم 32 | |
خطوات / مراقبة / hand_pos | موتر | (4 ،) | تعويم 32 | |
الخطوات / الملاحظة / object_pos | موتر | (4 ،) | تعويم 32 | |
الخطوات / الملاحظة / object_vel | موتر | (3 ،) | تعويم 32 | |
الخطوات / الملاحظة / target_pos | موتر | (4 ،) | تعويم 32 | |
خطوات / الملاحظة / اللمس | موتر | (5 ،) | تعويم 32 | |
خطوات / مكافأة | موتر | تعويم 32 | ||
الطابع الزمني | موتر | int64 |
- أمثلة ( tfds.as_dataframe ):
rlu_control_suite / manipulator_insert_peg
حجم مجموعة البيانات :
385.73 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 1500 |
- هيكل الميزة :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
معرّف_حلقة | موتر | int64 | ||
خطوات | مجموعة البيانات | |||
خطوات / عمل | موتر | (5 ،) | تعويم 32 | |
خطوات / خصم | موتر | تعويم 32 | ||
الخطوات / is_first | موتر | منطقي | ||
الخطوات / is_last | موتر | منطقي | ||
الخطوات / is_terminal | موتر | منطقي | ||
خطوات / ملاحظة | الميزات | |||
خطوات / مراقبة / arm_pos | موتر | (16 ،) | تعويم 32 | |
الخطوات / الملاحظة / arm_vel | موتر | (8 ،) | تعويم 32 | |
خطوات / مراقبة / hand_pos | موتر | (4 ،) | تعويم 32 | |
الخطوات / الملاحظة / object_pos | موتر | (4 ،) | تعويم 32 | |
الخطوات / الملاحظة / object_vel | موتر | (3 ،) | تعويم 32 | |
الخطوات / الملاحظة / target_pos | موتر | (4 ،) | تعويم 32 | |
خطوات / الملاحظة / اللمس | موتر | (5 ،) | تعويم 32 | |
خطوات / مكافأة | موتر | تعويم 32 | ||
الطابع الزمني | موتر | int64 |
- أمثلة ( tfds.as_dataframe ):
rlu_control_suite / walker_stand
حجم مجموعة البيانات :
31.78 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 200 |
- هيكل الميزة :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
معرّف_حلقة | موتر | int64 | ||
خطوات | مجموعة البيانات | |||
خطوات / عمل | موتر | (6 ،) | تعويم 32 | |
خطوات / خصم | موتر | تعويم 32 | ||
الخطوات / is_first | موتر | منطقي | ||
الخطوات / is_last | موتر | منطقي | ||
الخطوات / is_terminal | موتر | منطقي | ||
خطوات / ملاحظة | الميزات | |||
خطوات / مراقبة / ارتفاع | موتر | (1 ،) | تعويم 32 | |
خطوات / ملاحظة / توجهات | موتر | (14 ،) | تعويم 32 | |
الخطوات / الملاحظة / السرعة | موتر | (9 ،) | تعويم 32 | |
خطوات / مكافأة | موتر | تعويم 32 | ||
الطابع الزمني | موتر | int64 |
- أمثلة ( tfds.as_dataframe ):
rlu_control_suite / walker_walk
حجم مجموعة البيانات :
31.78 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 200 |
- هيكل الميزة :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
معرّف_حلقة | موتر | int64 | ||
خطوات | مجموعة البيانات | |||
خطوات / عمل | موتر | (6 ،) | تعويم 32 | |
خطوات / خصم | موتر | تعويم 32 | ||
الخطوات / is_first | موتر | منطقي | ||
الخطوات / is_last | موتر | منطقي | ||
الخطوات / is_terminal | موتر | منطقي | ||
خطوات / ملاحظة | الميزات | |||
خطوات / مراقبة / ارتفاع | موتر | (1 ،) | تعويم 32 | |
خطوات / ملاحظة / توجهات | موتر | (14 ،) | تعويم 32 | |
الخطوات / الملاحظة / السرعة | موتر | (9 ،) | تعويم 32 | |
خطوات / مكافأة | موتر | تعويم 32 | ||
الطابع الزمني | موتر | int64 |
- أمثلة ( tfds.as_dataframe ):