- 説明:
RL Unplugged は、オフライン強化学習のベンチマーク スイートです。 RL Unplugged は、次の考慮事項に基づいて設計されています。使いやすさを促進するために、一般的なパイプラインが確立されると、実践者がスイート内のすべてのデータを簡単に操作できるようにする統合 API をデータセットに提供します。
データセットはRLDS 形式に従って、ステップとエピソードを表します。
DeepMind Lab データセットには、挑戦的で部分的に観察可能なDeepmind Lab suiteからのいくつかのレベルがあります。 DeepMind Lab のデータセットは、 Kapturowski et al., 2018エージェントによって分散された R2D2 を個々のタスクでゼロからトレーニングすることによって収集されます。タスクごとに数回のトレーニング実行中に、すべてのアクターのエクスペリエンスを記録しました。データセット生成プロセスの詳細は、 Gulcehre et al., 2021で説明されています。
seekavoid_arena_01
、 explore_rewards_few
、 explore_rewards_many
、 rooms_watermaze
、 rooms_select_nonmatching_object
の 5 つの異なる DeepMind Lab レベルのデータセットをリリースします。環境でエージェントを評価するときに、イプシロン貪欲アルゴリズムのさまざまなレベルのイプシロンを使用して、トレーニング済みの R2D2 スナップショットからデータセットを生成した、 seekavoid_arena_01
レベルのスナップショット データセットもリリースします。
DeepMind Lab のデータセットはかなり大規模です。メモリを使用した大規模なオフライン RL モデルに興味がある場合は、試してみることをお勧めします。
ホームページ: https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
ソース コード:
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_many.RluDmlabExploreObjectRewardsMany
バージョン:
-
1.0.0
: 初期リリース。 -
1.1.0
: is_last を追加しました。 -
1.2.0
(デフォルト): BGR -> ピクセル観測の RGB 修正。
-
ダウンロードサイズ: サイズ
Unknown size
自動キャッシュ(ドキュメント): いいえ
機能構造:
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
episode_id | テンソル | int64 | ||
episode_return | テンソル | float32 | ||
ステップ | データセット | |||
ステップ/アクション | テンソル | int64 | ||
ステップ/割引 | テンソル | float32 | ||
ステップ/is_first | テンソル | ブール | ||
ステップ/is_last | テンソル | ブール | ||
ステップ/is_terminal | テンソル | ブール | ||
ステップ/観察 | 特徴辞書 | |||
ステップ/観察/last_action | テンソル | int64 | ||
ステップ/観察/last_reward | テンソル | float32 | ||
ステップ/観察/ピクセル | 画像 | (72、96、3) | uint8 | |
ステップ/報酬 | テンソル | float32 |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_many/training_0 (デフォルト設定)
データセットのサイズ:
1.51 TiB
スプリット:
スプリット | 例 |
---|---|
'train' | 111,370 |
- 例( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_many/training_1
データセットのサイズ:
1.44 TiB
スプリット:
スプリット | 例 |
---|---|
'train' | 111,367 |
- 例( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_many/training_2
データセットのサイズ:
1.48 TiB
スプリット:
スプリット | 例 |
---|---|
'train' | 111,367 |
- 例( tfds.as_dataframe ):