- Açıklama :
RL Unplugged, çevrimdışı pekiştirmeli öğrenim için karşılaştırmalı değerlendirmeler paketidir. RL Unplugged, aşağıdaki hususlar etrafında tasarlanmıştır: kullanım kolaylığını kolaylaştırmak için, veri kümelerine, genel bir ardışık düzen oluşturulduktan sonra uygulayıcının paketteki tüm verilerle çalışmasını kolaylaştıran birleşik bir API sağlıyoruz.
Veri kümeleri, adımları ve bölümleri temsil etmek için RLDS biçimini izler.
Bu görevler, CMU Humanoid'i içeren koridor hareket görevlerinden oluşur; bunun için önceki çabalar ya hareket yakalama verilerini Merel ve ark., 2019a , Merel ve ark., 2019b veya sıfırdan eğitim Song ve ark., 2020 kullanmıştır. Ek olarak, DM Locomotion deposu, sanal bir kemirgen Merel ve diğerleri, 2020'ye uyacak şekilde uyarlanmış bir dizi görev içerir. DM Locomotion görevlerinin, zorlu yüksek DoF sürekli kontrolün yanı sıra zengin benmerkezci gözlemlerden elde edilen algının bir kombinasyonunu içerdiğini vurguluyoruz. Veri kümesinin nasıl oluşturulduğuna ilişkin ayrıntılar için lütfen makaleye bakın.
Sürekli eylem alanına sahip çok zorlu çevrimdışı RL veri kümesiyle ilgileniyorsanız, DeepMind Locomotion veri kümesinde çevrimdışı RL yöntemlerini denemenizi öneririz.
Ana sayfa : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Kaynak kodu :
tfds.rl_unplugged.rlu_locomotion.RluLocomotion
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
Unknown size
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@inproceedings{gulcehre2020rl,
title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
booktitle = {Advances in Neural Information Processing Systems},
pages = {7248--7259},
volume = {33},
year = {2020}
}
rlu_locomotion/humanoid_corridor (varsayılan yapılandırma)
Veri kümesi boyutu :
1.88 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 4.000 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (56,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç/body_height | tensör | (1,) | şamandıra32 | |
adımlar/gözlem/yürüteç/egocentric_camera | resim | (64, 64, 3) | uint8 | |
adımlar/gözlem/yürüteç/end_effectors_pos | tensör | (12,) | şamandıra32 | |
adımlar/gözlem/yürüteç/joints_pos | tensör | (56,) | şamandıra32 | |
adımlar/gözlem/yürüteç/joints_vel | tensör | (56,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_accelerometer | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_gyro | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_velocimeter | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/world_zaxis | tensör | (3,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_locomotion/insansı_gaps
Veri kümesi boyutu :
4.57 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 8.000 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (56,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç/body_height | tensör | (1,) | şamandıra32 | |
adımlar/gözlem/yürüteç/egocentric_camera | resim | (64, 64, 3) | uint8 | |
adımlar/gözlem/yürüteç/end_effectors_pos | tensör | (12,) | şamandıra32 | |
adımlar/gözlem/yürüteç/joints_pos | tensör | (56,) | şamandıra32 | |
adımlar/gözlem/yürüteç/joints_vel | tensör | (56,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_accelerometer | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_gyro | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_velocimeter | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/world_zaxis | tensör | (3,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_locomotion/insansı_duvarlar
Veri kümesi boyutu :
2.36 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 4.000 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (56,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç/body_height | tensör | (1,) | şamandıra32 | |
adımlar/gözlem/yürüteç/egocentric_camera | resim | (64, 64, 3) | uint8 | |
adımlar/gözlem/yürüteç/end_effectors_pos | tensör | (12,) | şamandıra32 | |
adımlar/gözlem/yürüteç/joints_pos | tensör | (56,) | şamandıra32 | |
adımlar/gözlem/yürüteç/joints_vel | tensör | (56,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_accelerometer | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_gyro | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_velocimeter | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/world_zaxis | tensör | (3,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_locomotion/rodent_bowl_escape
Veri kümesi boyutu :
16.46 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 2.000 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (38,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç/appendages_pos | tensör | (15,) | şamandıra32 | |
adımlar/gözlem/yürüteç/egocentric_camera | resim | (64, 64, 3) | uint8 | |
adımlar/gözlem/yürüteç/joints_pos | tensör | (30,) | şamandıra32 | |
adımlar/gözlem/yürüteç/joints_vel | tensör | (30,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_accelerometer | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_gyro | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_touch | tensör | (4,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_velocimeter | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/tendons_pos | tensör | (8,) | şamandıra32 | |
adımlar/gözlem/yürüteç/tendons_vel | tensör | (8,) | şamandıra32 | |
adımlar/gözlem/yürüteç/world_zaxis | tensör | (3,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_locomotion/kemirgen_gaps
Veri kümesi boyutu :
8.90 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 2.000 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (38,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç/appendages_pos | tensör | (15,) | şamandıra32 | |
adımlar/gözlem/yürüteç/egocentric_camera | resim | (64, 64, 3) | uint8 | |
adımlar/gözlem/yürüteç/joints_pos | tensör | (30,) | şamandıra32 | |
adımlar/gözlem/yürüteç/joints_vel | tensör | (30,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_accelerometer | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_gyro | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_touch | tensör | (4,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_velocimeter | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/tendons_pos | tensör | (8,) | şamandıra32 | |
adımlar/gözlem/yürüteç/tendons_vel | tensör | (8,) | şamandıra32 | |
adımlar/gözlem/yürüteç/world_zaxis | tensör | (3,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_locomotion/kemirgen_mazes
Veri kümesi boyutu :
20.71 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 2.000 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (38,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç/appendages_pos | tensör | (15,) | şamandıra32 | |
adımlar/gözlem/yürüteç/egocentric_camera | resim | (64, 64, 3) | uint8 | |
adımlar/gözlem/yürüteç/joints_pos | tensör | (30,) | şamandıra32 | |
adımlar/gözlem/yürüteç/joints_vel | tensör | (30,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_accelerometer | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_gyro | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_touch | tensör | (4,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_velocimeter | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/tendons_pos | tensör | (8,) | şamandıra32 | |
adımlar/gözlem/yürüteç/tendons_vel | tensör | (8,) | şamandıra32 | |
adımlar/gözlem/yürüteç/world_zaxis | tensör | (3,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):
rlu_locomotion/rodent_two_touch
Veri kümesi boyutu :
23.05 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 2.000 |
- Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (38,) | şamandıra32 | |
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç | ÖzelliklerDict | |||
adımlar/gözlem/yürüteç/appendages_pos | tensör | (15,) | şamandıra32 | |
adımlar/gözlem/yürüteç/egocentric_camera | resim | (64, 64, 3) | uint8 | |
adımlar/gözlem/yürüteç/joints_pos | tensör | (30,) | şamandıra32 | |
adımlar/gözlem/yürüteç/joints_vel | tensör | (30,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_accelerometer | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_gyro | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_touch | tensör | (4,) | şamandıra32 | |
adımlar/gözlem/yürüteç/sensors_velocimeter | tensör | (3,) | şamandıra32 | |
adımlar/gözlem/yürüteç/tendons_pos | tensör | (8,) | şamandıra32 | |
adımlar/gözlem/yürüteç/tendons_vel | tensör | (8,) | şamandıra32 | |
adımlar/gözlem/yürüteç/world_zaxis | tensör | (3,) | şamandıra32 | |
adımlar/ödül | tensör | şamandıra32 | ||
zaman damgası | tensör | int64 |
- Örnekler ( tfds.as_dataframe ):