- opis :
RL Unplugged to zestaw testów porównawczych do uczenia się ze wzmacnianiem w trybie offline. RL Unplugged zostało zaprojektowane z myślą o następujących kwestiach: aby ułatwić użytkowanie, zapewniamy zestawy danych z ujednoliconym interfejsem API, który ułatwia praktykowi pracę ze wszystkimi danymi w pakiecie po ustaleniu ogólnego potoku.
Zestawy danych są zgodne z formatem RLDS, aby reprezentować kroki i epizody.
Zbiór danych DeepMind Lab ma kilka poziomów z wymagającego, częściowo obserwowalnego zestawu Deepmind Lab . Zbiór danych DeepMind Lab jest gromadzony poprzez szkolenie rozproszonych agentów R2D2 przez Kapturowski et al., 2018 od podstaw w zakresie poszczególnych zadań. Zarejestrowaliśmy doświadczenie wszystkich aktorów podczas całego treningu kilka razy dla każdego zadania. Szczegóły procesu generowania zestawu danych opisano w Gulcehre i in., 2021 .
Publikujemy zestawy danych dla pięciu różnych poziomów DeepMind Lab: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Udostępniamy również zestawy danych migawek dla poziomu seekavoid_arena_01
, które wygenerowaliśmy na podstawie przeszkolonej migawki R2D2 z różnymi poziomami epsilonów dla algorytmu epsilon-chciwy podczas oceny agenta w środowisku.
Zbiór danych DeepMind Lab jest dość duży. Zalecamy wypróbowanie go, jeśli interesują Cię modele RL offline na dużą skalę z pamięcią.
Strona główna : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Kod źródłowy :
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
Wersje :
-
1.0.0
: Pierwsza wersja. -
1.1.0
: Dodano is_last. -
1.2.0
(domyślnie): Poprawka BGR -> RGB dla obserwacji pikseli.
-
Rozmiar pliku do pobrania :
Unknown size
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 89144 |
- Struktura funkcji :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
identyfikator_odcinka | Napinacz | int64 | ||
odcinek_powrót | Napinacz | pływak32 | ||
kroki | Zbiór danych | |||
kroki/działanie | Napinacz | int64 | ||
kroki/rabat | Napinacz | pływak32 | ||
kroki/jest_pierwszy | Napinacz | bool | ||
kroki/jest_ostatni | Napinacz | bool | ||
kroki/jest_terminalem | Napinacz | bool | ||
kroki/obserwacja | FunkcjeDict | |||
kroki/obserwacja/ostatnia_akcja | Napinacz | int64 | ||
kroki/obserwacja/ostatnia_nagroda | Napinacz | pływak32 | ||
kroki/obserwacja/piksele | Obraz | (72, 96, 3) | uint8 | |
kroki/nagroda | Napinacz | pływak32 |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_few/training_0 (domyślna konfiguracja)
Rozmiar zestawu danych :
847.00 GiB
Przykłady ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_1
Rozmiar zestawu danych :
877.76 GiB
Przykłady ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few/training_2
Rozmiar zestawu danych :
836.43 GiB
Przykłady ( tfds.as_dataframe ):