- 설명 :
RL Unplugged는 오프라인 강화 학습을 위한 벤치마크 모음입니다. RL Unplugged는 다음 고려 사항을 중심으로 설계되었습니다. 사용 편의성을 높이기 위해 일반 파이프라인이 설정되면 실무자가 제품군의 모든 데이터로 쉽게 작업할 수 있도록 하는 통합 API와 함께 데이터 세트를 제공합니다.
데이터 세트는 RLDS 형식 을 따라 단계와 에피소드를 나타냅니다.
DeepMind Control Suite Tassa et al., 2018 은 MuJoCo Todorov et al., 2012 에서 구현된 일련의 제어 작업입니다. 우리는 광범위한 어려움을 다루는 제품군에서 제공되는 작업의 하위 집합을 고려합니다.
이 도메인에 있는 대부분의 데이터 세트는 D4PG를 사용하여 생성됩니다. 매니퓰레이터 삽입 볼 및 매니퓰레이터 삽입 페그 환경의 경우 D4PG가 이러한 작업을 해결할 수 없으므로 V-MPO Song et al., 2020 을 사용하여 데이터를 생성합니다. 9개의 컨트롤 스위트 작업에 대한 데이터 세트를 릴리스합니다. 데이터 세트 생성 방법에 대한 자세한 내용은 논문을 참조하십시오.
DeepMind Control Suite는 전통적인 연속 작업 RL 벤치마크입니다. 특히 다른 최첨단 오프라인 RL 방법과 비교하는 데 관심이 있는 경우 DeepMind Control Suite에서 접근 방식을 테스트하는 것이 좋습니다.
홈페이지 : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
버전 :
-
1.0.0
(기본값): 최초 릴리스.
-
다운로드 크기 :
Unknown size
감독된 키 (
as_supervised
문서 참조):None
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@inproceedings{gulcehre2020rl,
title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
booktitle = {Advances in Neural Information Processing Systems},
pages = {7248--7259},
volume = {33},
year = {2020}
}
rlu_control_suite/cartpole_swingup(기본 구성)
데이터 세트 크기 :
2.12 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 40 |
- 기능 구조 :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
episode_id | 텐서 | int64 | ||
단계 | 데이터 세트 | |||
단계/액션 | 텐서 | (1,) | float32 | |
단계/할인 | 텐서 | float32 | ||
단계/is_first | 텐서 | 부울 | ||
단계/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 풍모Dict | |||
단계/관찰/위치 | 텐서 | (삼,) | float32 | |
단계/관찰/속도 | 텐서 | (2,) | float32 | |
단계/보상 | 텐서 | float32 | ||
타임스탬프 | 텐서 | int64 |
- 예 ( tfds.as_dataframe ):
rlu_control_suite/cheetah_run
데이터 세트 크기 :
36.58 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 300 |
- 기능 구조 :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(8,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
episode_id | 텐서 | int64 | ||
단계 | 데이터세트 | |||
단계/액션 | 텐서 | (6,) | float32 | |
단계/할인 | 텐서 | float32 | ||
단계/is_first | 텐서 | 부울 | ||
단계/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 풍모Dict | |||
단계/관찰/위치 | 텐서 | (8,) | float32 | |
단계/관찰/속도 | 텐서 | (9,) | float32 | |
단계/보상 | 텐서 | float32 | ||
타임스탬프 | 텐서 | int64 |
- 예 ( tfds.as_dataframe ):
rlu_control_suite/finger_turn_hard
데이터 세트 크기 :
47.61 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 500 |
- 기능 구조 :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(2,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dist_to_target': Tensor(shape=(1,), dtype=float32),
'position': Tensor(shape=(4,), dtype=float32),
'target_position': Tensor(shape=(2,), dtype=float32),
'velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
episode_id | 텐서 | int64 | ||
단계 | 데이터세트 | |||
단계/액션 | 텐서 | (2,) | float32 | |
단계/할인 | 텐서 | float32 | ||
단계/is_first | 텐서 | 부울 | ||
단계/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 풍모Dict | |||
단계/관찰/dist_to_target | 텐서 | (1,) | float32 | |
단계/관찰/위치 | 텐서 | (4,) | float32 | |
단계/관찰/target_position | 텐서 | (2,) | float32 | |
단계/관찰/속도 | 텐서 | (삼,) | float32 | |
단계/보상 | 텐서 | float32 | ||
타임스탬프 | 텐서 | int64 |
- 예 ( tfds.as_dataframe ):
rlu_control_suite/fish_swim
데이터 세트 크기 :
32.81 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 200 |
- 기능 구조 :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'joint_angles': Tensor(shape=(7,), dtype=float32),
'target': Tensor(shape=(3,), dtype=float32),
'upright': Tensor(shape=(1,), dtype=float32),
'velocity': Tensor(shape=(13,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
episode_id | 텐서 | int64 | ||
단계 | 데이터 세트 | |||
단계/액션 | 텐서 | (5,) | float32 | |
단계/할인 | 텐서 | float32 | ||
단계/is_first | 텐서 | 부울 | ||
단계/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 풍모Dict | |||
단계/관측/joint_angles | 텐서 | (7,) | float32 | |
단계/관찰/목표 | 텐서 | (삼,) | float32 | |
단계/관찰/직립 | 텐서 | (1,) | float32 | |
단계/관찰/속도 | 텐서 | (13,) | float32 | |
단계/보상 | 텐서 | float32 | ||
타임스탬프 | 텐서 | int64 |
- 예 ( tfds.as_dataframe ):
rlu_control_suite/humanoid_run
데이터세트 크기 :
1.21 GiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'train' | 3,000 |
- 기능 구조 :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
episode_id | 텐서 | int64 | ||
단계 | 데이터세트 | |||
단계/액션 | 텐서 | (21,) | float32 | |
단계/할인 | 텐서 | float32 | ||
단계/is_first | 텐서 | 부울 | ||
단계/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 풍모Dict | |||
단계/관찰/com_velocity | 텐서 | (삼,) | float32 | |
단계/관찰/사지 | 텐서 | (12,) | float32 | |
단계/관찰/head_height | 텐서 | (1,) | float32 | |
단계/관측/joint_angles | 텐서 | (21,) | float32 | |
단계/관찰/torso_vertical | 텐서 | (삼,) | float32 | |
단계/관찰/속도 | 텐서 | (27,) | float32 | |
단계/보상 | 텐서 | float32 | ||
타임스탬프 | 텐서 | int64 |
- 예 ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_ball
데이터 세트 크기 :
385.41 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'train' | 1,500 |
- 기능 구조 :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
episode_id | 텐서 | int64 | ||
단계 | 데이터세트 | |||
단계/액션 | 텐서 | (5,) | float32 | |
단계/할인 | 텐서 | float32 | ||
단계/is_first | 텐서 | 부울 | ||
단계/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 풍모Dict | |||
단계/관찰/arm_pos | 텐서 | (16,) | float32 | |
단계/관찰/arm_vel | 텐서 | (8,) | float32 | |
단계/관찰/hand_pos | 텐서 | (4,) | float32 | |
단계/관찰/object_pos | 텐서 | (4,) | float32 | |
단계/관찰/object_vel | 텐서 | (삼,) | float32 | |
단계/관찰/target_pos | 텐서 | (4,) | float32 | |
스텝/관찰/터치 | 텐서 | (5,) | float32 | |
단계/보상 | 텐서 | float32 | ||
타임스탬프 | 텐서 | int64 |
- 예 ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_peg
데이터 세트 크기 :
385.73 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'train' | 1,500 |
- 기능 구조 :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
episode_id | 텐서 | int64 | ||
단계 | 데이터 세트 | |||
단계/액션 | 텐서 | (5,) | float32 | |
단계/할인 | 텐서 | float32 | ||
단계/is_first | 텐서 | 부울 | ||
단계/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 풍모Dict | |||
단계/관찰/arm_pos | 텐서 | (16,) | float32 | |
단계/관찰/arm_vel | 텐서 | (8,) | float32 | |
단계/관찰/hand_pos | 텐서 | (4,) | float32 | |
단계/관찰/object_pos | 텐서 | (4,) | float32 | |
단계/관찰/object_vel | 텐서 | (삼,) | float32 | |
단계/관찰/target_pos | 텐서 | (4,) | float32 | |
스텝/관찰/터치 | 텐서 | (5,) | float32 | |
단계/보상 | 텐서 | float32 | ||
타임스탬프 | 텐서 | int64 |
- 예 ( tfds.as_dataframe ):
rlu_control_suite/walker_stand
데이터 세트 크기 :
31.78 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 200 |
- 기능 구조 :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
episode_id | 텐서 | int64 | ||
단계 | 데이터 세트 | |||
단계/액션 | 텐서 | (6,) | float32 | |
단계/할인 | 텐서 | float32 | ||
단계/is_first | 텐서 | 부울 | ||
단계/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 풍모Dict | |||
계단/관찰/높이 | 텐서 | (1,) | float32 | |
단계/관찰/방향 | 텐서 | (14,) | float32 | |
단계/관찰/속도 | 텐서 | (9,) | float32 | |
단계/보상 | 텐서 | float32 | ||
타임스탬프 | 텐서 | int64 |
- 예 ( tfds.as_dataframe ):
rlu_control_suite/walker_walk
데이터 세트 크기 :
31.78 MiB
자동 캐시 ( 문서 ): 예
분할 :
나뉘다 | 예 |
---|---|
'train' | 200 |
- 기능 구조 :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
episode_id | 텐서 | int64 | ||
단계 | 데이터 세트 | |||
단계/액션 | 텐서 | (6,) | float32 | |
단계/할인 | 텐서 | float32 | ||
단계/is_first | 텐서 | 부울 | ||
단계/is_last | 텐서 | 부울 | ||
단계/is_terminal | 텐서 | 부울 | ||
단계/관찰 | 풍모Dict | |||
계단/관찰/높이 | 텐서 | (1,) | float32 | |
단계/관찰/방향 | 텐서 | (14,) | float32 | |
단계/관찰/속도 | 텐서 | (9,) | float32 | |
단계/보상 | 텐서 | float32 | ||
타임스탬프 | 텐서 | int64 |
- 예 ( tfds.as_dataframe ):