rlu_dmlab_rooms_select_nonmatching_object

  • Açıklama :

RL Unplugged, çevrimdışı pekiştirmeli öğrenim için karşılaştırmalı değerlendirmeler paketidir. RL Unplugged aşağıdaki hususlar etrafında tasarlanmıştır: kullanım kolaylığını kolaylaştırmak için veri kümelerine, genel bir boru hattı oluşturulduktan sonra uygulayıcının paketteki tüm verilerle çalışmasını kolaylaştıran birleşik bir API sağlıyoruz.

Veri kümeleri, adımları ve bölümleri temsil etmek için RLDS biçimini izler.

DeepMind Lab veri kümesi, zorlu, kısmen gözlemlenebilir Deepmind Lab paketinden birkaç seviyeye sahiptir. DeepMind Lab veri seti, Kapturowski ve diğerleri, 2018 aracıları tarafından dağıtılan R2D2 eğitimiyle bireysel görevlerde sıfırdan toplanır. Tüm eğitim boyunca tüm oyuncuların deneyimini her görev için birkaç kez kaydettik. Veri seti oluşturma sürecinin detayları Gulcehre ve diğerleri, 2021'de açıklanmıştır.

Beş farklı DeepMind Lab düzeyi için veri kümeleri yayınlıyoruz: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Ayrıca ortamdaki etmeni değerlendirirken epsilon açgözlü algoritması için farklı seviyelerde epsilonlara sahip eğitimli bir R2D2 anlık görüntüsünden oluşturduğumuz seekavoid_arena_01 düzeyi için anlık görüntü veri kümelerini de yayınlıyoruz.

DeepMind Lab veri seti oldukça büyük ölçeklidir. Hafızalı büyük ölçekli offline RL modelleriyle ilgileniyorsanız denemenizi öneririz.

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bölüm_kimliği tensör int64
bölüm_dönüş tensör şamandıra32
adımlar veri kümesi
adımlar/eylem tensör int64
adımlar/indirim tensör şamandıra32
adımlar/ilk_ilk tensör bool
adımlar/is_last tensör bool
adımlar/is_terminali tensör bool
adımlar/gözlem ÖzelliklerDict
adımlar/gözlem/son_eylem tensör int64
adımlar/gözlem/son_ödül tensör şamandıra32
adımlar/gözlem/pikseller resim (72, 96, 3) uint8
adımlar/ödül tensör şamandıra32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_select_nonmatching_object/training_0 (varsayılan yapılandırma)

  • Veri kümesi boyutu : 1.11 TiB

  • bölmeler :

Bölmek örnekler
'train' 667.349

rlu_dmlab_rooms_select_nonmatching_object/training_1

  • Veri kümesi boyutu : 1.08 TiB

  • bölmeler :

Bölmek örnekler
'train' 666.923

rlu_dmlab_rooms_select_nonmatching_object/training_2

  • Veri kümesi boyutu : 1.09 TiB

  • bölmeler :

Bölmek örnekler
'train' 666.927