- Deskripsi :
RL Unplugged adalah rangkaian tolok ukur untuk pembelajaran penguatan offline. RL Unplugged dirancang berdasarkan pertimbangan berikut: untuk memfasilitasi kemudahan penggunaan, kami menyediakan dataset dengan API terpadu yang memudahkan praktisi untuk bekerja dengan semua data dalam suite setelah pipeline umum dibuat.
Kumpulan data mengikuti format RLDS untuk mewakili langkah dan episode.
DeepMind Control Suite Tassa et al., 2018 adalah sekumpulan tugas kontrol yang diterapkan di MuJoCo Todorov et al., 2012 . Kami mempertimbangkan subset dari tugas yang disediakan di suite yang mencakup berbagai kesulitan.
Sebagian besar kumpulan data dalam domain ini dihasilkan menggunakan D4PG. Untuk lingkungan Manipulator insert ball dan Manipulator insert peg kami menggunakan V-MPO Song et al., 2020 untuk menghasilkan data karena D4PG tidak dapat menyelesaikan tugas ini. Kami merilis kumpulan data untuk 9 tugas rangkaian kontrol. Untuk perincian tentang bagaimana set data dihasilkan, silakan merujuk ke makalah.
DeepMind Control Suite adalah tolok ukur RL tindakan berkelanjutan tradisional. Secara khusus, kami menyarankan Anda menguji pendekatan Anda di DeepMind Control Suite jika Anda tertarik untuk membandingkan dengan metode RL offline canggih lainnya.
Beranda : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Kode sumber :
tfds.rl_unplugged.rlu_control_suite.RluControlSuite
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
Unknown size
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{gulcehre2020rl,
title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
booktitle = {Advances in Neural Information Processing Systems},
pages = {7248--7259},
volume = {33},
year = {2020}
}
rlu_control_suite/cartpole_swingup (konfigurasi default)
Ukuran dataset :
2.12 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 40 |
- Struktur fitur :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
episode_id | Tensor | int64 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (1,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/adalah_pertama | Tensor | bool | ||
langkah/is_last | Tensor | bool | ||
langkah/is_terminal | Tensor | bool | ||
langkah/pengamatan | fiturDict | |||
langkah/pengamatan/posisi | Tensor | (3,) | float32 | |
langkah/pengamatan/kecepatan | Tensor | (2,) | float32 | |
langkah/hadiah | Tensor | float32 | ||
cap waktu | Tensor | int64 |
- Contoh ( tfds.as_dataframe ):
rlu_control_suite/cheetah_run
Ukuran dataset :
36.58 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 300 |
- Struktur fitur :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(8,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
episode_id | Tensor | int64 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (6,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/adalah_pertama | Tensor | bool | ||
langkah/is_last | Tensor | bool | ||
langkah/is_terminal | Tensor | bool | ||
langkah/pengamatan | fiturDict | |||
langkah/pengamatan/posisi | Tensor | (8,) | float32 | |
langkah/pengamatan/kecepatan | Tensor | (9,) | float32 | |
langkah/hadiah | Tensor | float32 | ||
cap waktu | Tensor | int64 |
- Contoh ( tfds.as_dataframe ):
rlu_control_suite/finger_turn_hard
Ukuran dataset :
47.61 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 500 |
- Struktur fitur :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(2,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dist_to_target': Tensor(shape=(1,), dtype=float32),
'position': Tensor(shape=(4,), dtype=float32),
'target_position': Tensor(shape=(2,), dtype=float32),
'velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
episode_id | Tensor | int64 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (2,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/adalah_pertama | Tensor | bool | ||
langkah/is_last | Tensor | bool | ||
langkah/is_terminal | Tensor | bool | ||
langkah/pengamatan | fiturDict | |||
langkah/pengamatan/dist_to_target | Tensor | (1,) | float32 | |
langkah/pengamatan/posisi | Tensor | (4,) | float32 | |
langkah/pengamatan/target_position | Tensor | (2,) | float32 | |
langkah/pengamatan/kecepatan | Tensor | (3,) | float32 | |
langkah/hadiah | Tensor | float32 | ||
cap waktu | Tensor | int64 |
- Contoh ( tfds.as_dataframe ):
rlu_control_suite/fish_swim
Ukuran dataset :
32.81 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 200 |
- Struktur fitur :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'joint_angles': Tensor(shape=(7,), dtype=float32),
'target': Tensor(shape=(3,), dtype=float32),
'upright': Tensor(shape=(1,), dtype=float32),
'velocity': Tensor(shape=(13,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
episode_id | Tensor | int64 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (5,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/adalah_pertama | Tensor | bool | ||
langkah/is_last | Tensor | bool | ||
langkah/is_terminal | Tensor | bool | ||
langkah/pengamatan | fiturDict | |||
langkah/pengamatan/joint_angles | Tensor | (7,) | float32 | |
langkah/observasi/target | Tensor | (3,) | float32 | |
tangga/pengamatan/tegak | Tensor | (1,) | float32 | |
langkah/pengamatan/kecepatan | Tensor | (13,) | float32 | |
langkah/hadiah | Tensor | float32 | ||
cap waktu | Tensor | int64 |
- Contoh ( tfds.as_dataframe ):
rlu_control_suite/humanoid_run
Ukuran dataset :
1.21 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 3.000 |
- Struktur fitur :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
episode_id | Tensor | int64 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (21,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/adalah_pertama | Tensor | bool | ||
langkah/is_last | Tensor | bool | ||
langkah/is_terminal | Tensor | bool | ||
langkah/pengamatan | fiturDict | |||
langkah/pengamatan/com_velocity | Tensor | (3,) | float32 | |
langkah/observasi/ekstremitas | Tensor | (12,) | float32 | |
langkah/pengamatan/head_height | Tensor | (1,) | float32 | |
langkah/pengamatan/joint_angles | Tensor | (21,) | float32 | |
langkah/pengamatan/torso_vertical | Tensor | (3,) | float32 | |
langkah/pengamatan/kecepatan | Tensor | (27,) | float32 | |
langkah/hadiah | Tensor | float32 | ||
cap waktu | Tensor | int64 |
- Contoh ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_ball
Ukuran dataset :
385.41 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1.500 |
- Struktur fitur :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
episode_id | Tensor | int64 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (5,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/adalah_pertama | Tensor | bool | ||
langkah/is_last | Tensor | bool | ||
langkah/is_terminal | Tensor | bool | ||
langkah/pengamatan | fiturDict | |||
langkah/pengamatan/arm_pos | Tensor | (16,) | float32 | |
langkah/pengamatan/lengan_vel | Tensor | (8,) | float32 | |
langkah/pengamatan/hand_pos | Tensor | (4,) | float32 | |
langkah/pengamatan/pos_objek | Tensor | (4,) | float32 | |
langkah/pengamatan/objek_vel | Tensor | (3,) | float32 | |
langkah/pengamatan/target_pos | Tensor | (4,) | float32 | |
langkah/pengamatan/sentuhan | Tensor | (5,) | float32 | |
langkah/hadiah | Tensor | float32 | ||
cap waktu | Tensor | int64 |
- Contoh ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_peg
Ukuran dataset :
385.73 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1.500 |
- Struktur fitur :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
episode_id | Tensor | int64 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (5,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/adalah_pertama | Tensor | bool | ||
langkah/is_last | Tensor | bool | ||
langkah/is_terminal | Tensor | bool | ||
langkah/pengamatan | fiturDict | |||
langkah/pengamatan/arm_pos | Tensor | (16,) | float32 | |
langkah/pengamatan/lengan_vel | Tensor | (8,) | float32 | |
langkah/pengamatan/hand_pos | Tensor | (4,) | float32 | |
langkah/pengamatan/pos_objek | Tensor | (4,) | float32 | |
langkah/pengamatan/objek_vel | Tensor | (3,) | float32 | |
langkah/pengamatan/target_pos | Tensor | (4,) | float32 | |
langkah/pengamatan/sentuhan | Tensor | (5,) | float32 | |
langkah/hadiah | Tensor | float32 | ||
cap waktu | Tensor | int64 |
- Contoh ( tfds.as_dataframe ):
rlu_control_suite/walker_stand
Ukuran dataset :
31.78 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 200 |
- Struktur fitur :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
episode_id | Tensor | int64 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (6,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/adalah_pertama | Tensor | bool | ||
langkah/is_last | Tensor | bool | ||
langkah/is_terminal | Tensor | bool | ||
langkah/pengamatan | fiturDict | |||
langkah/observasi/tinggi | Tensor | (1,) | float32 | |
langkah/pengamatan/orientasi | Tensor | (14,) | float32 | |
langkah/pengamatan/kecepatan | Tensor | (9,) | float32 | |
langkah/hadiah | Tensor | float32 | ||
cap waktu | Tensor | int64 |
- Contoh ( tfds.as_dataframe ):
rlu_control_suite/walker_walk
Ukuran dataset :
31.78 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 200 |
- Struktur fitur :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
episode_id | Tensor | int64 | ||
Langkah | Himpunan data | |||
langkah/tindakan | Tensor | (6,) | float32 | |
langkah/diskon | Tensor | float32 | ||
langkah/adalah_pertama | Tensor | bool | ||
langkah/is_last | Tensor | bool | ||
langkah/is_terminal | Tensor | bool | ||
langkah/pengamatan | fiturDict | |||
langkah/observasi/tinggi | Tensor | (1,) | float32 | |
langkah/pengamatan/orientasi | Tensor | (14,) | float32 | |
langkah/pengamatan/kecepatan | Tensor | (9,) | float32 | |
langkah/hadiah | Tensor | float32 | ||
cap waktu | Tensor | int64 |
- Contoh ( tfds.as_dataframe ):