TFDS はCroissant 🥐 形式をサポートするようになりました。詳細については、ドキュメントをお読みください。

このページは Cloud Translation API によって翻訳されました。

rlu_locomotion

説明:

RL Unplugged は、オフライン強化学習のベンチマークスイートです。 RL Unplugged は、次の考慮事項に基づいて設計されています。使いやすさを促進するために、一般的なパイプラインが確立されると、実践者がスイート内のすべてのデータを簡単に操作できるようにする統合 API をデータセットに提供します。

データセットはRLDS 形式に従って、ステップとエピソードを表します。

これらのタスクは、CMU ヒューマノイドが関与する回廊移動タスクで構成されており、以前の取り組みでは、モーションキャプチャデータを使用したMerel et al., 2019a 、 Merel et al., 2019b 、またはゼロからのトレーニングSong et al., 2020 が使用されています。さらに、DM Locomotion リポジトリには、仮想齧歯動物に適した一連のタスクが含まれています。 Merel et al., 2020 . DM ロコモーションタスクは、挑戦的な高 DoF 連続制御と、豊富な自己中心的観察からの知覚の組み合わせを特徴としていることを強調します。データセットの生成方法の詳細については、論文を参照してください。

継続的なアクション空間を持つ非常に挑戦的なオフライン RL データセットに興味がある場合は、DeepMind Locomotion データセットでオフライン RL メソッドを試すことをお勧めします。

ホームページ: https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
ソースコード: tfds.rl_unplugged.rlu_locomotion.RluLocomotion
バージョン:
- 1.0.0 (デフォルト): 初期リリース。
ダウンロードサイズ: サイズUnknown size
自動キャッシュ(ドキュメント): いいえ
監視されたキー( as_supervised docを参照): None
図( tfds.show_examples ): サポートされていません。
引用：

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_locomotion/humanoid_corridor (デフォルト設定)

データセットサイズ: 1.88 GiB
分割:

スプリット	例
`'train'`	4,000

機能構造:

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
episode_id	テンソル		int64
ステップ	データセット
ステップ/アクション	テンソル	(56)	float32
ステップ/割引	テンソル		float32
ステップ/is_first	テンソル		ブール
ステップ/is_last	テンソル		ブール
ステップ/is_terminal	テンソル		ブール
ステップ/観察	特徴辞書
歩数/観察/歩行者	特徴辞書
ステップ/観察/ウォーカー/body_height	テンソル	(1)	float32
ステップ/観察/ウォーカー/エゴセントリック_カメラ	画像	(64, 64, 3)	uint8
ステップ/観察/ウォーカー/end_effectors_pos	テンソル	(12)	float32
steps/observation/walker/joints_pos	テンソル	(56)	float32
steps/observation/walker/joints_vel	テンソル	(56)	float32
steps/observation/walker/sensors_accelerometer	テンソル	(3)	float32
steps/observation/walker/sensors_gyro	テンソル	(3)	float32
steps/observation/walker/sensors_velocimeter	テンソル	(3)	float32
ステップ/観察/ウォーカー/world_zaxis	テンソル	(3)	float32
ステップ/報酬	テンソル		float32
タイムスタンプ	テンソル		int64

例( tfds.as_dataframe ):

rlu_locomotion/humanoid_gaps

データセットサイズ: 4.57 GiB
分割:

スプリット	例
`'train'`	8,000

機能構造:

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
episode_id	テンソル		int64
ステップ	データセット
ステップ/アクション	テンソル	(56)	float32
ステップ/割引	テンソル		float32
ステップ/is_first	テンソル		ブール
ステップ/is_last	テンソル		ブール
ステップ/is_terminal	テンソル		ブール
ステップ/観察	特徴辞書
歩数/観察/歩行者	特徴辞書
ステップ/観察/ウォーカー/body_height	テンソル	(1)	float32
ステップ/観察/ウォーカー/エゴセントリック_カメラ	画像	(64, 64, 3)	uint8
ステップ/観察/ウォーカー/end_effectors_pos	テンソル	(12)	float32
steps/observation/walker/joints_pos	テンソル	(56)	float32
steps/observation/walker/joints_vel	テンソル	(56)	float32
steps/observation/walker/sensors_accelerometer	テンソル	(3)	float32
steps/observation/walker/sensors_gyro	テンソル	(3)	float32
steps/observation/walker/sensors_velocimeter	テンソル	(3)	float32
ステップ/観察/ウォーカー/world_zaxis	テンソル	(3)	float32
ステップ/報酬	テンソル		float32
タイムスタンプ	テンソル		int64

例( tfds.as_dataframe ):

rlu_locomotion/humanoid_walls

データセットサイズ: 2.36 GiB
分割:

スプリット	例
`'train'`	4,000

機能構造:

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(56,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'body_height': Tensor(shape=(1,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
                'joints_pos': Tensor(shape=(56,), dtype=float32),
                'joints_vel': Tensor(shape=(56,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
episode_id	テンソル		int64
ステップ	データセット
ステップ/アクション	テンソル	(56)	float32
ステップ/割引	テンソル		float32
ステップ/is_first	テンソル		ブール
ステップ/is_last	テンソル		ブール
ステップ/is_terminal	テンソル		ブール
ステップ/観察	特徴辞書
歩数/観察/歩行者	特徴辞書
ステップ/観察/ウォーカー/body_height	テンソル	(1)	float32
ステップ/観察/ウォーカー/エゴセントリック_カメラ	画像	(64, 64, 3)	uint8
ステップ/観察/ウォーカー/end_effectors_pos	テンソル	(12)	float32
steps/observation/walker/joints_pos	テンソル	(56)	float32
steps/observation/walker/joints_vel	テンソル	(56)	float32
steps/observation/walker/sensors_accelerometer	テンソル	(3)	float32
steps/observation/walker/sensors_gyro	テンソル	(3)	float32
steps/observation/walker/sensors_velocimeter	テンソル	(3)	float32
ステップ/観察/ウォーカー/world_zaxis	テンソル	(3)	float32
ステップ/報酬	テンソル		float32
タイムスタンプ	テンソル		int64

例( tfds.as_dataframe ):

rlu_locomotion/rodent_bowl_escape

データセットサイズ: 16.46 GiB
分割:

スプリット	例
`'train'`	2,000

機能構造:

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
episode_id	テンソル		int64
ステップ	データセット
ステップ/アクション	テンソル	(38)	float32
ステップ/割引	テンソル		float32
ステップ/is_first	テンソル		ブール
ステップ/is_last	テンソル		ブール
ステップ/is_terminal	テンソル		ブール
ステップ/観察	特徴辞書
歩数/観察/歩行者	特徴辞書
ステップ/観察/ウォーカー/appendages_pos	テンソル	(15)	float32
ステップ/観察/ウォーカー/エゴセントリック_カメラ	画像	(64, 64, 3)	uint8
steps/observation/walker/joints_pos	テンソル	(30,)	float32
steps/observation/walker/joints_vel	テンソル	(30,)	float32
steps/observation/walker/sensors_accelerometer	テンソル	(3)	float32
steps/observation/walker/sensors_gyro	テンソル	(3)	float32
ステップ/観察/ウォーカー/sensors_touch	テンソル	(4)	float32
steps/observation/walker/sensors_velocimeter	テンソル	(3)	float32
steps/observation/walker/tendons_pos	テンソル	(8)	float32
steps/observation/walker/tendons_vel	テンソル	(8)	float32
ステップ/観察/ウォーカー/world_zaxis	テンソル	(3)	float32
ステップ/報酬	テンソル		float32
タイムスタンプ	テンソル		int64

例( tfds.as_dataframe ):

rlu_locomotion/rodent_gaps

データセットサイズ: 8.90 GiB
分割:

スプリット	例
`'train'`	2,000

機能構造:

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
episode_id	テンソル		int64
ステップ	データセット
ステップ/アクション	テンソル	(38)	float32
ステップ/割引	テンソル		float32
ステップ/is_first	テンソル		ブール
ステップ/is_last	テンソル		ブール
ステップ/is_terminal	テンソル		ブール
ステップ/観察	特徴辞書
歩数/観察/歩行者	特徴辞書
ステップ/観察/ウォーカー/appendages_pos	テンソル	(15)	float32
ステップ/観察/ウォーカー/エゴセントリック_カメラ	画像	(64, 64, 3)	uint8
steps/observation/walker/joints_pos	テンソル	(30,)	float32
steps/observation/walker/joints_vel	テンソル	(30,)	float32
steps/observation/walker/sensors_accelerometer	テンソル	(3)	float32
steps/observation/walker/sensors_gyro	テンソル	(3)	float32
ステップ/観察/ウォーカー/sensors_touch	テンソル	(4)	float32
steps/observation/walker/sensors_velocimeter	テンソル	(3)	float32
steps/observation/walker/tendons_pos	テンソル	(8)	float32
steps/observation/walker/tendons_vel	テンソル	(8)	float32
ステップ/観察/ウォーカー/world_zaxis	テンソル	(3)	float32
ステップ/報酬	テンソル		float32
タイムスタンプ	テンソル		int64

例( tfds.as_dataframe ):

rlu_locomotion/rodent_mazes

データセットサイズ: 20.71 GiB
分割:

スプリット	例
`'train'`	2,000

機能構造:

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
episode_id	テンソル		int64
ステップ	データセット
ステップ/アクション	テンソル	(38)	float32
ステップ/割引	テンソル		float32
ステップ/is_first	テンソル		ブール
ステップ/is_last	テンソル		ブール
ステップ/is_terminal	テンソル		ブール
ステップ/観察	特徴辞書
歩数/観察/歩行者	特徴辞書
ステップ/観察/ウォーカー/appendages_pos	テンソル	(15)	float32
ステップ/観察/ウォーカー/エゴセントリック_カメラ	画像	(64, 64, 3)	uint8
steps/observation/walker/joints_pos	テンソル	(30,)	float32
steps/observation/walker/joints_vel	テンソル	(30,)	float32
steps/observation/walker/sensors_accelerometer	テンソル	(3)	float32
steps/observation/walker/sensors_gyro	テンソル	(3)	float32
ステップ/観察/ウォーカー/sensors_touch	テンソル	(4)	float32
steps/observation/walker/sensors_velocimeter	テンソル	(3)	float32
steps/observation/walker/tendons_pos	テンソル	(8)	float32
steps/observation/walker/tendons_vel	テンソル	(8)	float32
ステップ/観察/ウォーカー/world_zaxis	テンソル	(3)	float32
ステップ/報酬	テンソル		float32
タイムスタンプ	テンソル		int64

例( tfds.as_dataframe ):

rlu_locomotion/rodent_two_touch

データセットサイズ: 23.05 GiB
分割:

スプリット	例
`'train'`	2,000

機能構造:

FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(38,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'walker': FeaturesDict({
                'appendages_pos': Tensor(shape=(15,), dtype=float32),
                'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
                'joints_pos': Tensor(shape=(30,), dtype=float32),
                'joints_vel': Tensor(shape=(30,), dtype=float32),
                'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
                'sensors_gyro': Tensor(shape=(3,), dtype=float32),
                'sensors_touch': Tensor(shape=(4,), dtype=float32),
                'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
                'tendons_pos': Tensor(shape=(8,), dtype=float32),
                'tendons_vel': Tensor(shape=(8,), dtype=float32),
                'world_zaxis': Tensor(shape=(3,), dtype=float32),
            }),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
episode_id	テンソル		int64
ステップ	データセット
ステップ/アクション	テンソル	(38)	float32
ステップ/割引	テンソル		float32
ステップ/is_first	テンソル		ブール
ステップ/is_last	テンソル		ブール
ステップ/is_terminal	テンソル		ブール
ステップ/観察	特徴辞書
歩数/観察/歩行者	特徴辞書
ステップ/観察/ウォーカー/appendages_pos	テンソル	(15)	float32
ステップ/観察/ウォーカー/エゴセントリック_カメラ	画像	(64, 64, 3)	uint8
steps/observation/walker/joints_pos	テンソル	(30,)	float32
steps/observation/walker/joints_vel	テンソル	(30,)	float32
steps/observation/walker/sensors_accelerometer	テンソル	(3)	float32
steps/observation/walker/sensors_gyro	テンソル	(3)	float32
ステップ/観察/ウォーカー/sensors_touch	テンソル	(4)	float32
steps/observation/walker/sensors_velocimeter	テンソル	(3)	float32
steps/observation/walker/tendons_pos	テンソル	(8)	float32
steps/observation/walker/tendons_vel	テンソル	(8)	float32
ステップ/観察/ウォーカー/world_zaxis	テンソル	(3)	float32
ステップ/報酬	テンソル		float32
タイムスタンプ	テンソル		int64

例( tfds.as_dataframe ):