- Descrição :
RL Unplugged é um conjunto de benchmarks para aprendizado de reforço offline. O RL Unplugged foi projetado com base nas seguintes considerações: para facilitar o uso, fornecemos os conjuntos de dados com uma API unificada que torna mais fácil para o profissional trabalhar com todos os dados no conjunto, uma vez que um pipeline geral tenha sido estabelecido.
Os conjuntos de dados seguem o formato RLDS para representar etapas e episódios.
DeepMind Control Suite Tassa et al., 2018 é um conjunto de tarefas de controle implementadas em MuJoCo Todorov et al., 2012 . Consideramos um subconjunto das tarefas fornecidas no pacote que cobrem uma ampla gama de dificuldades.
A maioria dos conjuntos de dados neste domínio são gerados usando D4PG. Para os ambientes Manipulator insert ball e Manipulator insert peg usamos V-MPO Song et al., 2020 para gerar os dados, pois o D4PG é incapaz de resolver essas tarefas. Lançamos conjuntos de dados para 9 tarefas de suíte de controle. Para obter detalhes sobre como o conjunto de dados foi gerado, consulte o artigo.
O DeepMind Control Suite é um benchmark de RL de ação contínua tradicional. Em particular, recomendamos que você teste sua abordagem no DeepMind Control Suite se estiver interessado em comparar com outros métodos de RL off-line de última geração.
Página inicial : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Código -fonte:
tfds.rl_unplugged.rlu_control_suite.RluControlSuite
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
Unknown size
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não compatível.
Citação :
@inproceedings{gulcehre2020rl,
title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
booktitle = {Advances in Neural Information Processing Systems},
pages = {7248--7259},
volume = {33},
year = {2020}
}
rlu_control_suite/cartpole_swingup (configuração padrão)
Tamanho do conjunto de dados :
2.12 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 40 |
- Estrutura de recursos :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_id | tensor | int64 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (1,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/posição | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (2,) | float32 | |
passos/recompensa | tensor | float32 | ||
carimbo de data/hora | tensor | int64 |
- Exemplos ( tfds.as_dataframe ):
rlu_control_suite/cheetah_run
Tamanho do conjunto de dados :
36.58 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 300 |
- Estrutura de recursos :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(8,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_id | tensor | int64 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/posição | tensor | (8,) | float32 | |
passos/observação/velocidade | tensor | (9,) | float32 | |
passos/recompensa | tensor | float32 | ||
carimbo de data/hora | tensor | int64 |
- Exemplos ( tfds.as_dataframe ):
rlu_control_suite/finger_turn_hard
Tamanho do conjunto de dados :
47.61 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 500 |
- Estrutura de recursos :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(2,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dist_to_target': Tensor(shape=(1,), dtype=float32),
'position': Tensor(shape=(4,), dtype=float32),
'target_position': Tensor(shape=(2,), dtype=float32),
'velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_id | tensor | int64 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (2,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/dist_to_target | tensor | (1,) | float32 | |
passos/observação/posição | tensor | (4,) | float32 | |
passos/observação/posição_alvo | tensor | (2,) | float32 | |
passos/observação/velocidade | tensor | (3,) | float32 | |
passos/recompensa | tensor | float32 | ||
carimbo de data/hora | tensor | int64 |
- Exemplos ( tfds.as_dataframe ):
rlu_control_suite/fish_swim
Tamanho do conjunto de dados :
32.81 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 200 |
- Estrutura de recursos :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'joint_angles': Tensor(shape=(7,), dtype=float32),
'target': Tensor(shape=(3,), dtype=float32),
'upright': Tensor(shape=(1,), dtype=float32),
'velocity': Tensor(shape=(13,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_id | tensor | int64 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (5,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/ângulos_articulações | tensor | (7,) | float32 | |
passos/observação/alvo | tensor | (3,) | float32 | |
passos/observação/vertical | tensor | (1,) | float32 | |
passos/observação/velocidade | tensor | (13,) | float32 | |
passos/recompensa | tensor | float32 | ||
carimbo de data/hora | tensor | int64 |
- Exemplos ( tfds.as_dataframe ):
rlu_control_suite/humanoid_run
Tamanho do conjunto de dados :
1.21 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 3.000 |
- Estrutura de recursos :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_id | tensor | int64 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (21,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/com_velocity | tensor | (3,) | float32 | |
passos/observação/extremidades | tensor | (12,) | float32 | |
passos/observação/head_height | tensor | (1,) | float32 | |
passos/observação/ângulos_articulações | tensor | (21,) | float32 | |
passos/observação/torso_vertical | tensor | (3,) | float32 | |
passos/observação/velocidade | tensor | (27,) | float32 | |
passos/recompensa | tensor | float32 | ||
carimbo de data/hora | tensor | int64 |
- Exemplos ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_ball
Tamanho do conjunto de dados :
385.41 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1.500 |
- Estrutura de recursos :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_id | tensor | int64 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (5,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/arm_pos | tensor | (16,) | float32 | |
passos/observação/arm_vel | tensor | (8,) | float32 | |
passos/observação/mão_pos | tensor | (4,) | float32 | |
passos/observação/object_pos | tensor | (4,) | float32 | |
passos/observação/object_vel | tensor | (3,) | float32 | |
passos/observação/target_pos | tensor | (4,) | float32 | |
passos/observação/toque | tensor | (5,) | float32 | |
passos/recompensa | tensor | float32 | ||
carimbo de data/hora | tensor | int64 |
- Exemplos ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_peg
Tamanho do conjunto de dados :
385.73 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'train' | 1.500 |
- Estrutura de recursos :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_id | tensor | int64 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (5,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/arm_pos | tensor | (16,) | float32 | |
passos/observação/arm_vel | tensor | (8,) | float32 | |
passos/observação/mão_pos | tensor | (4,) | float32 | |
passos/observação/object_pos | tensor | (4,) | float32 | |
passos/observação/object_vel | tensor | (3,) | float32 | |
passos/observação/target_pos | tensor | (4,) | float32 | |
passos/observação/toque | tensor | (5,) | float32 | |
passos/recompensa | tensor | float32 | ||
carimbo de data/hora | tensor | int64 |
- Exemplos ( tfds.as_dataframe ):
rlu_control_suite/walker_stand
Tamanho do conjunto de dados :
31.78 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 200 |
- Estrutura de recursos :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_id | tensor | int64 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/altura | tensor | (1,) | float32 | |
passos/observação/orientações | tensor | (14,) | float32 | |
passos/observação/velocidade | tensor | (9,) | float32 | |
passos/recompensa | tensor | float32 | ||
carimbo de data/hora | tensor | int64 |
- Exemplos ( tfds.as_dataframe ):
rlu_control_suite/walker_walk
Tamanho do conjunto de dados :
31.78 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'train' | 200 |
- Estrutura de recursos :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
episódio_id | tensor | int64 | ||
degraus | conjunto de dados | |||
passos/ação | tensor | (6,) | float32 | |
passos/desconto | tensor | float32 | ||
passos/é_primeiro | tensor | bool | ||
passos/é_último | tensor | bool | ||
passos/is_terminal | tensor | bool | ||
passos/observação | RecursosDict | |||
passos/observação/altura | tensor | (1,) | float32 | |
passos/observação/orientações | tensor | (14,) | float32 | |
passos/observação/velocidade | tensor | (9,) | float32 | |
passos/recompensa | tensor | float32 | ||
carimbo de data/hora | tensor | int64 |
- Exemplos ( tfds.as_dataframe ):