rlu_locomotion

  • Açıklama :

RL Unplugged, çevrimdışı pekiştirmeli öğrenim için karşılaştırmalı değerlendirmeler paketidir. RL Unplugged, aşağıdaki hususlar etrafında tasarlanmıştır: kullanım kolaylığını kolaylaştırmak için, veri kümelerine, genel bir ardışık düzen oluşturulduktan sonra uygulayıcının paketteki tüm verilerle çalışmasını kolaylaştıran birleşik bir API sağlıyoruz.

Veri kümeleri, adımları ve bölümleri temsil etmek için RLDS biçimini izler.

Bu görevler, CMU Humanoid'i içeren koridor hareket görevlerinden oluşur; bunun için önceki çabalar ya hareket yakalama verilerini Merel ve ark., 2019a , Merel ve ark., 2019b veya sıfırdan eğitim Song ve ark., 2020 kullanmıştır. Ek olarak, DM Locomotion deposu, sanal bir kemirgen Merel ve diğerleri, 2020'ye uyacak şekilde uyarlanmış bir dizi görev içerir. DM Locomotion görevlerinin, zorlu yüksek DoF sürekli kontrolün yanı sıra zengin benmerkezci gözlemlerden elde edilen algının bir kombinasyonunu içerdiğini vurguluyoruz. Veri kümesinin nasıl oluşturulduğuna ilişkin ayrıntılar için lütfen makaleye bakın.

Sürekli eylem alanına sahip çok zorlu çevrimdışı RL veri kümesiyle ilgileniyorsanız, DeepMind Locomotion veri kümesinde çevrimdışı RL yöntemlerini denemenizi öneririz.

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_locomotion/humanoid_corridor (varsayılan yapılandırma)

  • Veri kümesi boyutu : 1.88 GiB

  • bölmeler :

Bölmek örnekler
'train' 4.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (56,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/body_height tensör (1,) şamandıra32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) uint8
adımlar/gözlem/yürüteç/end_effectors_pos tensör (12,) şamandıra32
adımlar/gözlem/yürüteç/joints_pos tensör (56,) şamandıra32
adımlar/gözlem/yürüteç/joints_vel tensör (56,) şamandıra32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_locomotion/insansı_gaps

  • Veri kümesi boyutu : 4.57 GiB

  • bölmeler :

Bölmek örnekler
'train' 8.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (56,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/body_height tensör (1,) şamandıra32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) uint8
adımlar/gözlem/yürüteç/end_effectors_pos tensör (12,) şamandıra32
adımlar/gözlem/yürüteç/joints_pos tensör (56,) şamandıra32
adımlar/gözlem/yürüteç/joints_vel tensör (56,) şamandıra32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_locomotion/insansı_duvarlar

  • Veri kümesi boyutu : 2.36 GiB

  • bölmeler :

Bölmek örnekler
'train' 4.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (56,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/body_height tensör (1,) şamandıra32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) uint8
adımlar/gözlem/yürüteç/end_effectors_pos tensör (12,) şamandıra32
adımlar/gözlem/yürüteç/joints_pos tensör (56,) şamandıra32
adımlar/gözlem/yürüteç/joints_vel tensör (56,) şamandıra32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_locomotion/rodent_bowl_escape

  • Veri kümesi boyutu : 16.46 GiB

  • bölmeler :

Bölmek örnekler
'train' 2.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (38,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/appendages_pos tensör (15,) şamandıra32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) uint8
adımlar/gözlem/yürüteç/joints_pos tensör (30,) şamandıra32
adımlar/gözlem/yürüteç/joints_vel tensör (30,) şamandıra32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_touch tensör (4,) şamandıra32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/tendons_pos tensör (8,) şamandıra32
adımlar/gözlem/yürüteç/tendons_vel tensör (8,) şamandıra32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_locomotion/kemirgen_gaps

  • Veri kümesi boyutu : 8.90 GiB

  • bölmeler :

Bölmek örnekler
'train' 2.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (38,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/appendages_pos tensör (15,) şamandıra32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) uint8
adımlar/gözlem/yürüteç/joints_pos tensör (30,) şamandıra32
adımlar/gözlem/yürüteç/joints_vel tensör (30,) şamandıra32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_touch tensör (4,) şamandıra32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/tendons_pos tensör (8,) şamandıra32
adımlar/gözlem/yürüteç/tendons_vel tensör (8,) şamandıra32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_locomotion/kemirgen_mazes

  • Veri kümesi boyutu : 20.71 GiB

  • bölmeler :

Bölmek örnekler
'train' 2.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (38,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/appendages_pos tensör (15,) şamandıra32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) uint8
adımlar/gözlem/yürüteç/joints_pos tensör (30,) şamandıra32
adımlar/gözlem/yürüteç/joints_vel tensör (30,) şamandıra32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_touch tensör (4,) şamandıra32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/tendons_pos tensör (8,) şamandıra32
adımlar/gözlem/yürüteç/tendons_vel tensör (8,) şamandıra32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64

rlu_locomotion/rodent_two_touch

  • Veri kümesi boyutu : 23.05 GiB

  • bölmeler :

Bölmek örnekler
'train' 2.000
  • Özellik yapısı :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
adımlar veri kümesi
adımlar/eylem tensör (38,) şamandıra32
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/yürüteç ÖzelliklerDict
adımlar/gözlem/yürüteç/appendages_pos tensör (15,) şamandıra32
adımlar/gözlem/yürüteç/egocentric_camera resim (64, 64, 3) uint8
adımlar/gözlem/yürüteç/joints_pos tensör (30,) şamandıra32
adımlar/gözlem/yürüteç/joints_vel tensör (30,) şamandıra32
adımlar/gözlem/yürüteç/sensors_accelerometer tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_gyro tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/sensors_touch tensör (4,) şamandıra32
adımlar/gözlem/yürüteç/sensors_velocimeter tensör (3,) şamandıra32
adımlar/gözlem/yürüteç/tendons_pos tensör (8,) şamandıra32
adımlar/gözlem/yürüteç/tendons_vel tensör (8,) şamandıra32
adımlar/gözlem/yürüteç/world_zaxis tensör (3,) şamandıra32
adımlar/ödül tensör şamandıra32
zaman damgası tensör int64