d4rl_adroit_door

  • বর্ণনা :

D4RL অফলাইন রিইনফোর্সমেন্ট শেখার জন্য একটি ওপেন সোর্স বেঞ্চমার্ক। এটি প্রশিক্ষণ এবং বেঞ্চমার্কিং অ্যালগরিদমের জন্য মানসম্মত পরিবেশ এবং ডেটাসেট সরবরাহ করে।

ডেটাসেটগুলি ধাপ এবং পর্বগুলি উপস্থাপন করতে RLDS বিন্যাস অনুসরণ করে।

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_adroit_door/v0-human (ডিফল্ট কনফিগারেশন)

  • ডাউনলোড সাইজ : 2.97 MiB

  • ডেটাসেটের আকার : 3.36 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 50
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (২৮,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
পদক্ষেপ/তথ্য/qpos টেনসর (30,) float32
পদক্ষেপ/infos/qvel টেনসর (30,) float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (৩৯,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_adroit_door/v0-ক্লোন

  • ডাউনলোড সাইজ : 602.42 MiB

  • ডেটাসেটের আকার : 497.47 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 6,214
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float64,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=float64),
            'qvel': Tensor(shape=(30,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float64),
        'reward': float64,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (২৮,) float32
পদক্ষেপ/ছাড় টেনসর float64
পদক্ষেপ/তথ্য ফিচারসডিক্ট
পদক্ষেপ/তথ্য/qpos টেনসর (30,) float64
পদক্ষেপ/infos/qvel টেনসর (30,) float64
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (৩৯,) float64
পদক্ষেপ/পুরস্কার টেনসর float64

d4rl_adroit_door/v0-expert

  • ডাউনলোড সাইজ : 511.05 MiB

  • ডেটাসেটের আকার : 710.30 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 5,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_logstd': Tensor(shape=(28,), dtype=float32),
            'action_mean': Tensor(shape=(28,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (২৮,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_logstd টেনসর (২৮,) float32
steps/infos/action_mean টেনসর (২৮,) float32
পদক্ষেপ/তথ্য/qpos টেনসর (30,) float32
পদক্ষেপ/infos/qvel টেনসর (30,) float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (৩৯,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_adroit_door/v1-মানুষ

  • ডাউনলোড আকার : 2.98 MiB

  • ডেটাসেটের আকার : 3.42 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 25
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'door_body_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (২৮,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
পদক্ষেপ/তথ্য/দ্বার_বডি_পোস টেনসর (৩,) float32
পদক্ষেপ/তথ্য/qpos টেনসর (30,) float32
পদক্ষেপ/infos/qvel টেনসর (30,) float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (৩৯,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_adroit_door/v1-ক্লোন

  • ডাউনলোড সাইজ : 280.72 MiB

  • ডেটাসেটের আকার : 1.85 GiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 4,358
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(39, 256), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(28,), dtype=float32),
            'weight': Tensor(shape=(256, 28), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'door_body_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অ্যালগরিদম টেনসর স্ট্রিং
নীতি ফিচারসডিক্ট
নীতি/fc0 ফিচারসডিক্ট
নীতি/fc0/পক্ষপাত টেনসর (256,) float32
নীতি/fc0/ওজন টেনসর (৩৯, ২৫৬) float32
নীতি/fc1 ফিচারসডিক্ট
নীতি/fc1/পক্ষপাত টেনসর (256,) float32
নীতি/fc1/ওজন টেনসর (256, 256) float32
নীতি/লাস্ট_এফসি ফিচারসডিক্ট
নীতি/লাস্ট_এফসি/পক্ষপাত টেনসর (২৮,) float32
নীতি/লাস্ট_এফসি/ওজন টেনসর (256, 28) float32
নীতি/অরৈখিকতা টেনসর স্ট্রিং
নীতি/আউটপুট_ডিস্ট্রিবিউশন টেনসর স্ট্রিং
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (২৮,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
পদক্ষেপ/তথ্য/দ্বার_বডি_পোস টেনসর (৩,) float32
পদক্ষেপ/তথ্য/qpos টেনসর (30,) float32
পদক্ষেপ/infos/qvel টেনসর (30,) float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (৩৯,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_adroit_door/v1-বিশেষজ্ঞ

  • ডাউনলোড সাইজ : 511.22 MiB

  • ডেটাসেটের আকার : 803.48 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 5,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'algorithm': string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(32,), dtype=float32),
            'weight': Tensor(shape=(32, 39), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(32,), dtype=float32),
            'weight': Tensor(shape=(32, 32), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(28,), dtype=float32),
            'weight': Tensor(shape=(28, 32), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(28,), dtype=float32),
            'weight': Tensor(shape=(28, 32), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(28,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_std': Tensor(shape=(28,), dtype=float32),
            'action_mean': Tensor(shape=(28,), dtype=float32),
            'door_body_pos': Tensor(shape=(3,), dtype=float32),
            'qpos': Tensor(shape=(30,), dtype=float32),
            'qvel': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(39,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অ্যালগরিদম টেনসর স্ট্রিং
নীতি ফিচারসডিক্ট
নীতি/fc0 ফিচারসডিক্ট
নীতি/fc0/পক্ষপাত টেনসর (৩২,) float32
নীতি/fc0/ওজন টেনসর (৩২, ৩৯) float32
নীতি/fc1 ফিচারসডিক্ট
নীতি/fc1/পক্ষপাত টেনসর (৩২,) float32
নীতি/fc1/ওজন টেনসর (৩২, ৩২) float32
নীতি/লাস্ট_এফসি ফিচারসডিক্ট
নীতি/লাস্ট_এফসি/পক্ষপাত টেনসর (২৮,) float32
নীতি/লাস্ট_এফসি/ওজন টেনসর (২৮, ৩২) float32
নীতি/last_fc_log_std ফিচারসডিক্ট
নীতি/last_fc_log_std/bias টেনসর (২৮,) float32
নীতি/last_fc_log_std/ওজন টেনসর (২৮, ৩২) float32
নীতি/অরৈখিকতা টেনসর স্ট্রিং
নীতি/আউটপুট_ডিস্ট্রিবিউশন টেনসর স্ট্রিং
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (২৮,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_log_std টেনসর (২৮,) float32
steps/infos/action_mean টেনসর (২৮,) float32
পদক্ষেপ/তথ্য/দ্বার_বডি_পোস টেনসর (৩,) float32
পদক্ষেপ/তথ্য/qpos টেনসর (30,) float32
পদক্ষেপ/infos/qvel টেনসর (30,) float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (৩৯,) float32
পদক্ষেপ/পুরস্কার টেনসর float32