- Açıklama :
RL Unplugged, çevrimdışı pekiştirmeli öğrenim için karşılaştırmalı değerlendirmeler paketidir. RL Unplugged, aşağıdaki hususlar etrafında tasarlanmıştır: kullanım kolaylığını kolaylaştırmak için, veri kümelerine, genel bir ardışık düzen oluşturulduktan sonra uygulayıcının paketteki tüm verilerle çalışmasını kolaylaştıran birleşik bir API sağlıyoruz.
Veri kümeleri, adımları ve bölümleri temsil etmek için RLDS biçimini izler.
DeepMind Lab veri kümesi, zorlu, kısmen gözlemlenebilir Deepmind Lab paketinden birkaç seviyeye sahiptir. DeepMind Lab veri seti, Kapturowski ve diğerleri, 2018 aracıları tarafından dağıtılan R2D2 eğitimiyle bireysel görevlerde sıfırdan toplanır. Tüm eğitim boyunca tüm oyuncuların deneyimini her görev için birkaç kez kaydettik. Veri seti oluşturma sürecinin detayları Gulcehre ve diğerleri, 2021'de açıklanmıştır.
Beş farklı DeepMind Lab düzeyi için veri kümeleri yayınlıyoruz: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Ortamdaki etmeni değerlendirirken epsilon açgözlü algoritması için farklı seviyelerde epsilonlara sahip eğitimli bir R2D2 anlık görüntüsünden oluşturduğumuz seekavoid_arena_01
düzeyi için anlık görüntü veri kümelerini de yayınlıyoruz.
DeepMind Lab veri seti oldukça büyük ölçeklidir. Hafızalı büyük ölçekli offline RL modelleriyle ilgileniyorsanız denemenizi öneririz.
Ana sayfa : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Kaynak kodu :
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_many.RluDmlabExploreObjectRewardsMany
sürümler :
-
1.0.0
: İlk sürüm. -
1.1.0
: is_last eklendi. -
1.2.0
(varsayılan): BGR -> Piksel gözlemleri için RGB düzeltmesi.
-
İndirme boyutu :
Unknown size
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
Özellik yapısı :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
bölüm_dönüş | tensör | şamandıra32 | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | int64 | ||
adımlar/indirim | tensör | şamandıra32 | ||
adımlar/ilk_ilk | tensör | bool | ||
adımlar/is_last | tensör | bool | ||
adımlar/is_terminali | tensör | bool | ||
adımlar/gözlem | ÖzelliklerDict | |||
adımlar/gözlem/son_eylem | tensör | int64 | ||
adımlar/gözlem/son_ödül | tensör | şamandıra32 | ||
adımlar/gözlem/pikseller | resim | (72, 96, 3) | uint8 | |
adımlar/ödül | tensör | şamandıra32 |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_many/training_0 (varsayılan yapılandırma)
Veri kümesi boyutu :
1.51 TiB
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 111.370 |
- Örnekler ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_many/training_1
Veri kümesi boyutu :
1.44 TiB
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 111.367 |
- Örnekler ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_many/training_2
Veri kümesi boyutu :
1.48 TiB
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 111.367 |
- Örnekler ( tfds.as_dataframe ):