rlu_dmlab_seekavoid_arena01

Описание :

RL Unplugged — это набор тестов для автономного обучения с подкреплением. RL Unplugged разработан с учетом следующих соображений: чтобы упростить использование, мы предоставляем наборы данных с унифицированным API, который позволяет практикующим специалистам легко работать со всеми данными в наборе после того, как общий конвейер был установлен.

Наборы данных соответствуют формату RLDS для представления шагов и эпизодов.

Набор данных DeepMind Lab имеет несколько уровней сложного, частично наблюдаемого пакета Deepmind Lab . Набор данных DeepMind Lab собирается путем обучения распределенных агентов R2D2 Kapturowski et al., 2018 с нуля индивидуальным задачам. Мы записывали опыт всех актеров в течение всего тренировочного цикла несколько раз для каждой задачи. Подробности процесса создания набора данных описаны в Gulcehre et al., 2021 .

Мы выпускаем наборы данных для пяти разных уровней DeepMind Lab: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Мы также выпускаем наборы данных моментальных снимков для уровня seekavoid_arena_01 , которые мы сгенерировали наборы данных из обученного моментального снимка R2D2 с различными уровнями эпсилон для эпсилон-жадного алгоритма при оценке агента в среде.

Набор данных DeepMind Lab довольно масштабный. Мы рекомендуем вам попробовать его, если вы заинтересованы в крупномасштабных автономных моделях RL с памятью.

Домашняя страница : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Исходный код : tfds.rl_unplugged.rlu_dmlab_seekavoid_arena01.RluDmlabSeekavoidArena01
Версии :
- 1.0.0 : Первоначальный выпуск.
- 1.1.0 : Добавлен is_last.
- 1.2.0 (по умолчанию): исправление BGR -> RGB для наблюдения за пикселями.
Размер загрузки : Unknown size
Автоматическое кэширование ( документация ): Нет
Структура функции :

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
id_эпизода	Тензор		int64
эпизод_возврат	Тензор		поплавок32
шаги	Набор данных
шаги/действие	Тензор		int64
шаги/скидка	Тензор		поплавок32
шаги / is_first	Тензор		логический
шаги/is_last	Тензор		логический
шаги/is_terminal	Тензор		логический
шаги/наблюдение	ОсобенностиDict
шаги/наблюдение/последнее_действие	Тензор		int64
шаги/наблюдение/last_reward	Тензор		поплавок32
шаги/наблюдение/пиксели	Изображение	(72, 96, 3)	uint8
шаги/награда	Тензор		поплавок32

Ключи под наблюдением (см . документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_seekavoid_arena01/training_0 (конфигурация по умолчанию)

Размер набора данных : 356.86 GiB .
Сплиты :

Расколоть	Примеры
`'train'`	134 707

Примеры ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/training_1

Размер набора данных : 337.09 GiB
Сплиты :

Расколоть	Примеры
`'train'`	128 472

Примеры ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/training_2

Размер набора данных : 355.62 GiB
Сплиты :

Расколоть	Примеры
`'train'`	133 545

Примеры ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/snapshot_0_eps_0.0

Размер набора данных : 89.16 GiB
Сплиты :

Расколоть	Примеры
`'train'`	33 340

Примеры ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/snapshot_1_eps_0.0

Размер набора данных : 89.03 GiB
Сплиты :

Расколоть	Примеры
`'train'`	33 340

Примеры ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/snapshot_0_eps_0.01

Размер набора данных : 89.12 GiB
Сплиты :

Расколоть	Примеры
`'train'`	33 340

Примеры ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/snapshot_1_eps_0.01

Размер набора данных : 89.02 GiB
Сплиты :

Расколоть	Примеры
`'train'`	33 340

Примеры ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/snapshot_0_eps_0.25

Размер набора данных : 88.57 GiB
Сплиты :

Расколоть	Примеры
`'train'`	33 340

Примеры ( tfds.as_dataframe ):

rlu_dmlab_seekavoid_arena01/snapshot_1_eps_0.25

Размер набора данных : 88.51 GiB
Сплиты :

Расколоть	Примеры
`'train'`	33 340

Примеры ( tfds.as_dataframe ):