rlu_dmlab_explore_object_rewards_few

  • Deskripsi :

RL Unplugged adalah rangkaian tolok ukur untuk pembelajaran penguatan offline. RL Unplugged dirancang berdasarkan pertimbangan berikut: untuk memfasilitasi kemudahan penggunaan, kami menyediakan dataset dengan API terpadu yang memudahkan praktisi untuk bekerja dengan semua data dalam suite setelah pipeline umum dibuat.

Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.

Kumpulan data DeepMind Lab memiliki beberapa level dari suite Deepmind Lab yang menantang dan dapat diamati sebagian. Kumpulan data DeepMind Lab dikumpulkan dengan pelatihan yang didistribusikan R2D2 oleh Kapturowski et al., Agen 2018 dari awal pada tugas individu. Kami merekam pengalaman semua aktor selama seluruh pelatihan berjalan beberapa kali untuk setiap tugas. Detail proses pembuatan dataset dijelaskan dalam Gulcehre et al., 2021 .

Kami merilis kumpulan data untuk lima level DeepMind Lab yang berbeda: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Kami juga merilis kumpulan data snapshot untuk level seekavoid_arena_01 yang kami buat dari kumpulan data dari snapshot R2D2 terlatih dengan berbagai level epsilon untuk algoritme epsilon-greedy saat mengevaluasi agen di lingkungan.

Dataset DeepMind Lab berskala cukup besar. Kami menyarankan Anda untuk mencobanya jika Anda tertarik dengan model RL offline skala besar dengan memori.

Membelah Contoh
'train' 89.144
  • Struktur fitur :
FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
episode_id Tensor int64
episode_return Tensor float32
Langkah Himpunan data
langkah/tindakan Tensor int64
langkah/diskon Tensor float32
langkah/adalah_pertama Tensor bool
langkah/is_last Tensor bool
langkah/is_terminal Tensor bool
langkah/pengamatan fiturDict
langkah/pengamatan/tindakan_terakhir Tensor int64
langkah/pengamatan/hadiah_terakhir Tensor float32
langkah/pengamatan/piksel Gambar (72, 96, 3) uint8
langkah/hadiah Tensor float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_few/training_0 (konfigurasi default)

rlu_dmlab_explore_object_rewards_few/training_1

rlu_dmlab_explore_object_rewards_few/training_2