- বর্ণনা :
D4RL অফলাইন রিইনফোর্সমেন্ট শেখার জন্য একটি ওপেন সোর্স বেঞ্চমার্ক। এটি প্রশিক্ষণ এবং বেঞ্চমার্কিং অ্যালগরিদমের জন্য মানসম্মত পরিবেশ এবং ডেটাসেট সরবরাহ করে।
ডেটাসেটগুলি ধাপ এবং পর্বগুলি উপস্থাপন করতে RLDS বিন্যাস অনুসরণ করে।
কনফিগারের বিবরণ : https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit- এ টাস্ক এবং এর সংস্করণ সম্পর্কে আরও বিশদ দেখুন
সোর্স কোড :
tfds.d4rl.d4rl_adroit_door.D4rlAdroitDoor
সংস্করণ :
-
1.0.0
: প্রাথমিক প্রকাশ। -
1.1.0
(ডিফল্ট): যোগ করা হয়েছে is_last।
-
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_adroit_door/v0-human (ডিফল্ট কনফিগারেশন)
ডাউনলোড সাইজ :
2.97 MiB
ডেটাসেটের আকার :
3.36 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 50 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(28,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(39,), dtype=float32),
'reward': float32,
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
পদক্ষেপ | ডেটাসেট | |||
পদক্ষেপ/ক্রিয়া | টেনসর | (২৮,) | float32 | |
পদক্ষেপ/ছাড় | টেনসর | float32 | ||
পদক্ষেপ/তথ্য | ফিচারসডিক্ট | |||
পদক্ষেপ/তথ্য/qpos | টেনসর | (30,) | float32 | |
পদক্ষেপ/infos/qvel | টেনসর | (30,) | float32 | |
steps/is_first | টেনসর | bool | ||
ধাপ/শেষ_শেষ | টেনসর | bool | ||
steps/is_terminal | টেনসর | bool | ||
পদক্ষেপ/পর্যবেক্ষণ | টেনসর | (৩৯,) | float32 | |
পদক্ষেপ/পুরস্কার | টেনসর | float32 |
- উদাহরণ ( tfds.as_dataframe ):
d4rl_adroit_door/v0-ক্লোন
ডাউনলোড সাইজ :
602.42 MiB
ডেটাসেটের আকার :
497.47 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 6,214 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(28,), dtype=float32),
'discount': float64,
'infos': FeaturesDict({
'qpos': Tensor(shape=(30,), dtype=float64),
'qvel': Tensor(shape=(30,), dtype=float64),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(39,), dtype=float64),
'reward': float64,
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
পদক্ষেপ | ডেটাসেট | |||
পদক্ষেপ/ক্রিয়া | টেনসর | (২৮,) | float32 | |
পদক্ষেপ/ছাড় | টেনসর | float64 | ||
পদক্ষেপ/তথ্য | ফিচারসডিক্ট | |||
পদক্ষেপ/তথ্য/qpos | টেনসর | (30,) | float64 | |
পদক্ষেপ/infos/qvel | টেনসর | (30,) | float64 | |
steps/is_first | টেনসর | bool | ||
ধাপ/শেষ_শেষ | টেনসর | bool | ||
steps/is_terminal | টেনসর | bool | ||
পদক্ষেপ/পর্যবেক্ষণ | টেনসর | (৩৯,) | float64 | |
পদক্ষেপ/পুরস্কার | টেনসর | float64 |
- উদাহরণ ( tfds.as_dataframe ):
d4rl_adroit_door/v0-expert
ডাউনলোড সাইজ :
511.05 MiB
ডেটাসেটের আকার :
710.30 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 5,000 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(28,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_logstd': Tensor(shape=(28,), dtype=float32),
'action_mean': Tensor(shape=(28,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(39,), dtype=float32),
'reward': float32,
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
পদক্ষেপ | ডেটাসেট | |||
পদক্ষেপ/ক্রিয়া | টেনসর | (২৮,) | float32 | |
পদক্ষেপ/ছাড় | টেনসর | float32 | ||
পদক্ষেপ/তথ্য | ফিচারসডিক্ট | |||
steps/infos/action_logstd | টেনসর | (২৮,) | float32 | |
steps/infos/action_mean | টেনসর | (২৮,) | float32 | |
পদক্ষেপ/তথ্য/qpos | টেনসর | (30,) | float32 | |
পদক্ষেপ/infos/qvel | টেনসর | (30,) | float32 | |
steps/is_first | টেনসর | bool | ||
ধাপ/শেষ_শেষ | টেনসর | bool | ||
steps/is_terminal | টেনসর | bool | ||
পদক্ষেপ/পর্যবেক্ষণ | টেনসর | (৩৯,) | float32 | |
পদক্ষেপ/পুরস্কার | টেনসর | float32 |
- উদাহরণ ( tfds.as_dataframe ):
d4rl_adroit_door/v1-মানুষ
ডাউনলোড আকার :
2.98 MiB
ডেটাসেটের আকার :
3.42 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 25 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(28,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'door_body_pos': Tensor(shape=(3,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(39,), dtype=float32),
'reward': float32,
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
পদক্ষেপ | ডেটাসেট | |||
পদক্ষেপ/ক্রিয়া | টেনসর | (২৮,) | float32 | |
পদক্ষেপ/ছাড় | টেনসর | float32 | ||
পদক্ষেপ/তথ্য | ফিচারসডিক্ট | |||
পদক্ষেপ/তথ্য/দ্বার_বডি_পোস | টেনসর | (৩,) | float32 | |
পদক্ষেপ/তথ্য/qpos | টেনসর | (30,) | float32 | |
পদক্ষেপ/infos/qvel | টেনসর | (30,) | float32 | |
steps/is_first | টেনসর | bool | ||
ধাপ/শেষ_শেষ | টেনসর | bool | ||
steps/is_terminal | টেনসর | bool | ||
পদক্ষেপ/পর্যবেক্ষণ | টেনসর | (৩৯,) | float32 | |
পদক্ষেপ/পুরস্কার | টেনসর | float32 |
- উদাহরণ ( tfds.as_dataframe ):
d4rl_adroit_door/v1-ক্লোন
ডাউনলোড সাইজ :
280.72 MiB
ডেটাসেটের আকার :
1.85 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 4,358 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'algorithm': string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(39, 256), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=float32),
'weight': Tensor(shape=(256, 256), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(28,), dtype=float32),
'weight': Tensor(shape=(256, 28), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(28,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'door_body_pos': Tensor(shape=(3,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(39,), dtype=float32),
'reward': float32,
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অ্যালগরিদম | টেনসর | স্ট্রিং | ||
নীতি | ফিচারসডিক্ট | |||
নীতি/fc0 | ফিচারসডিক্ট | |||
নীতি/fc0/পক্ষপাত | টেনসর | (256,) | float32 | |
নীতি/fc0/ওজন | টেনসর | (৩৯, ২৫৬) | float32 | |
নীতি/fc1 | ফিচারসডিক্ট | |||
নীতি/fc1/পক্ষপাত | টেনসর | (256,) | float32 | |
নীতি/fc1/ওজন | টেনসর | (256, 256) | float32 | |
নীতি/লাস্ট_এফসি | ফিচারসডিক্ট | |||
নীতি/লাস্ট_এফসি/পক্ষপাত | টেনসর | (২৮,) | float32 | |
নীতি/লাস্ট_এফসি/ওজন | টেনসর | (256, 28) | float32 | |
নীতি/অরৈখিকতা | টেনসর | স্ট্রিং | ||
নীতি/আউটপুট_ডিস্ট্রিবিউশন | টেনসর | স্ট্রিং | ||
পদক্ষেপ | ডেটাসেট | |||
পদক্ষেপ/ক্রিয়া | টেনসর | (২৮,) | float32 | |
পদক্ষেপ/ছাড় | টেনসর | float32 | ||
পদক্ষেপ/তথ্য | ফিচারসডিক্ট | |||
পদক্ষেপ/তথ্য/দ্বার_বডি_পোস | টেনসর | (৩,) | float32 | |
পদক্ষেপ/তথ্য/qpos | টেনসর | (30,) | float32 | |
পদক্ষেপ/infos/qvel | টেনসর | (30,) | float32 | |
steps/is_first | টেনসর | bool | ||
ধাপ/শেষ_শেষ | টেনসর | bool | ||
steps/is_terminal | টেনসর | bool | ||
পদক্ষেপ/পর্যবেক্ষণ | টেনসর | (৩৯,) | float32 | |
পদক্ষেপ/পুরস্কার | টেনসর | float32 |
- উদাহরণ ( tfds.as_dataframe ):
d4rl_adroit_door/v1-বিশেষজ্ঞ
ডাউনলোড সাইজ :
511.22 MiB
ডেটাসেটের আকার :
803.48 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 5,000 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'algorithm': string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(32,), dtype=float32),
'weight': Tensor(shape=(32, 39), dtype=float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(32,), dtype=float32),
'weight': Tensor(shape=(32, 32), dtype=float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(28,), dtype=float32),
'weight': Tensor(shape=(28, 32), dtype=float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(28,), dtype=float32),
'weight': Tensor(shape=(28, 32), dtype=float32),
}),
'nonlinearity': string,
'output_distribution': string,
}),
'steps': Dataset({
'action': Tensor(shape=(28,), dtype=float32),
'discount': float32,
'infos': FeaturesDict({
'action_log_std': Tensor(shape=(28,), dtype=float32),
'action_mean': Tensor(shape=(28,), dtype=float32),
'door_body_pos': Tensor(shape=(3,), dtype=float32),
'qpos': Tensor(shape=(30,), dtype=float32),
'qvel': Tensor(shape=(30,), dtype=float32),
}),
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': Tensor(shape=(39,), dtype=float32),
'reward': float32,
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অ্যালগরিদম | টেনসর | স্ট্রিং | ||
নীতি | ফিচারসডিক্ট | |||
নীতি/fc0 | ফিচারসডিক্ট | |||
নীতি/fc0/পক্ষপাত | টেনসর | (৩২,) | float32 | |
নীতি/fc0/ওজন | টেনসর | (৩২, ৩৯) | float32 | |
নীতি/fc1 | ফিচারসডিক্ট | |||
নীতি/fc1/পক্ষপাত | টেনসর | (৩২,) | float32 | |
নীতি/fc1/ওজন | টেনসর | (৩২, ৩২) | float32 | |
নীতি/লাস্ট_এফসি | ফিচারসডিক্ট | |||
নীতি/লাস্ট_এফসি/পক্ষপাত | টেনসর | (২৮,) | float32 | |
নীতি/লাস্ট_এফসি/ওজন | টেনসর | (২৮, ৩২) | float32 | |
নীতি/last_fc_log_std | ফিচারসডিক্ট | |||
নীতি/last_fc_log_std/bias | টেনসর | (২৮,) | float32 | |
নীতি/last_fc_log_std/ওজন | টেনসর | (২৮, ৩২) | float32 | |
নীতি/অরৈখিকতা | টেনসর | স্ট্রিং | ||
নীতি/আউটপুট_ডিস্ট্রিবিউশন | টেনসর | স্ট্রিং | ||
পদক্ষেপ | ডেটাসেট | |||
পদক্ষেপ/ক্রিয়া | টেনসর | (২৮,) | float32 | |
পদক্ষেপ/ছাড় | টেনসর | float32 | ||
পদক্ষেপ/তথ্য | ফিচারসডিক্ট | |||
steps/infos/action_log_std | টেনসর | (২৮,) | float32 | |
steps/infos/action_mean | টেনসর | (২৮,) | float32 | |
পদক্ষেপ/তথ্য/দ্বার_বডি_পোস | টেনসর | (৩,) | float32 | |
পদক্ষেপ/তথ্য/qpos | টেনসর | (30,) | float32 | |
পদক্ষেপ/infos/qvel | টেনসর | (30,) | float32 | |
steps/is_first | টেনসর | bool | ||
ধাপ/শেষ_শেষ | টেনসর | bool | ||
steps/is_terminal | টেনসর | bool | ||
পদক্ষেপ/পর্যবেক্ষণ | টেনসর | (৩৯,) | float32 | |
পদক্ষেপ/পুরস্কার | টেনসর | float32 |
- উদাহরণ ( tfds.as_dataframe ):