rlu_dmlab_explore_object_rewards_many

  • Descriptif :

RL Unplugged est une suite de références pour l'apprentissage par renforcement hors ligne. Le RL Unplugged est conçu autour des considérations suivantes : pour faciliter l'utilisation, nous fournissons les ensembles de données avec une API unifiée qui permet au praticien de travailler facilement avec toutes les données de la suite une fois qu'un pipeline général a été établi.

Les ensembles de données suivent le format RLDS pour représenter les étapes et les épisodes.

L'ensemble de données DeepMind Lab comporte plusieurs niveaux de la suite Deepmind Lab difficile et partiellement observable. L'ensemble de données DeepMind Lab est collecté par la formation distribuée R2D2 par Kapturowski et al., 2018 agents à partir de zéro sur des tâches individuelles. Nous avons enregistré l'expérience de tous les acteurs pendant des cycles de formation complets à quelques reprises pour chaque tâche. Les détails du processus de génération de l'ensemble de données sont décrits dans Gulcehre et al., 2021 .

Nous publions des ensembles de données pour cinq niveaux DeepMind Lab différents : seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Nous publions également les ensembles de données d'instantanés pour le niveau seekavoid_arena_01 que nous avons générés à partir d'un instantané R2D2 formé avec différents niveaux d'epsilons pour l'algorithme epsilon-greedy lors de l'évaluation de l'agent dans l'environnement.

L'ensemble de données DeepMind Lab est assez vaste. Nous vous recommandons de l'essayer si vous êtes intéressé par les modèles RL hors ligne à grande échelle avec mémoire.

FeaturesDict({
    'episode_id': int64,
    'episode_return': float32,
    'steps': Dataset({
        'action': int64,
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'last_action': int64,
            'last_reward': float32,
            'pixels': Image(shape=(72, 96, 3), dtype=uint8),
        }),
        'reward': float32,
    }),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
épisode_id Tenseur int64
retour_épisode Tenseur float32
pas Base de données
étapes/action Tenseur int64
étapes/réduction Tenseur float32
étapes/is_first Tenseur bourdonner
pas/est_dernier Tenseur bourdonner
étapes/is_terminal Tenseur bourdonner
étapes/observation FonctionnalitésDict
étapes/observation/dernière_action Tenseur int64
étapes/observation/dernière_récompense Tenseur float32
pas/observation/pixels Image (72, 96, 3) uint8
pas/récompense Tenseur float32
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_explore_object_rewards_many/training_0 (configuration par défaut)

  • Taille du jeu de données : 1.51 TiB

  • Fractionnements :

Diviser Exemples
'train' 111 370

rlu_dmlab_explore_object_rewards_many/training_1

  • Taille du jeu de données : 1.44 TiB

  • Fractionnements :

Diviser Exemples
'train' 111 367

rlu_dmlab_explore_object_rewards_many/training_2

  • Taille du jeu de données : 1.48 TiB

  • Fractionnements :

Diviser Exemples
'train' 111 367