TFDS এখন Croissant 🥐 ফরম্যাট সমর্থন করে! আরও জানতে ডকুমেন্টেশন পড়ুন।

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

d4rl_mujoco_halfcheetah

বর্ণনা :

D4RL অফলাইন রিইনফোর্সমেন্ট শেখার জন্য একটি ওপেন সোর্স বেঞ্চমার্ক। এটি প্রশিক্ষণ এবং বেঞ্চমার্কিং অ্যালগরিদমের জন্য মানসম্মত পরিবেশ এবং ডেটাসেট সরবরাহ করে।

ডেটাসেটগুলি ধাপ এবং পর্বগুলি উপস্থাপন করতে RLDS বিন্যাস অনুসরণ করে।

কনফিগারের বিবরণ : https://github.com/rail-berkeley/d4rl/wiki/Tasks#gym- এ টাস্ক এবং এর সংস্করণ সম্পর্কে আরও বিশদ দেখুন
হোমপেজ : https://sites.google.com/view/d4rl-anonymous
উত্স কোড : tfds.d4rl.d4rl_mujoco_halfcheetah.D4rlMujocoHalfcheetah
সংস্করণ :
- 1.0.0 : প্রাথমিক প্রকাশ।
- 1.0.1 : পর্ব এবং ধাপ মেটাডেটার জন্য সমর্থন, এবং সমস্ত কনফিগারেশন জুড়ে পুরস্কারের আকার একীকরণ।
- 1.1.0 : যোগ করা হয়েছে_শেষ।
- 1.2.0 (ডিফল্ট): পরবর্তী পর্যবেক্ষণ বিবেচনায় নিতে আপডেট করা হয়েছে।
তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_mujoco_halfcheetah/v0-expert (ডিফল্ট কনফিগারেশন)

ডাউনলোড আকার : 83.44 MiB
ডেটাসেটের আকার : 98.43 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	1,002

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v0-মাধ্যম

ডাউনলোড সাইজ : 82.92 MiB
ডেটাসেটের আকার : 98.43 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	1,002

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v0-মাঝারি-বিশেষজ্ঞ

ডাউনলোড সাইজ : 166.36 MiB
ডেটাসেটের আকার : 196.86 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন shuffle_files=False (ট্রেন)
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	2,004

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v0-মিশ্রিত

ডাউনলোড আকার : 8.60 MiB
ডেটাসেটের আকার : 9.94 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	101

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v0-এলোমেলো

ডাউনলোড সাইজ : 84.79 MiB
ডেটাসেটের আকার : 98.43 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	1,002

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v1-বিশেষজ্ঞ

ডাউনলোড সাইজ : 146.94 MiB
ডেটাসেটের আকার : 451.88 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	1,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
অ্যালগরিদম	টেনসর		স্ট্রিং
পুনরাবৃত্তি	টেনসর		int32
নীতি	ফিচারসডিক্ট
নীতি/fc0	ফিচারসডিক্ট
নীতি/fc0/পক্ষপাত	টেনসর	(256,)	float32
নীতি/fc0/ওজন	টেনসর	(256, 17)	float32
নীতি/fc1	ফিচারসডিক্ট
নীতি/fc1/পক্ষপাত	টেনসর	(256,)	float32
নীতি/fc1/ওজন	টেনসর	(256, 256)	float32
নীতি/লাস্ট_এফসি	ফিচারসডিক্ট
নীতি/লাস্ট_এফসি/পক্ষপাত	টেনসর	(6,)	float32
নীতি/লাস্ট_এফসি/ওজন	টেনসর	(6, 256)	float32
নীতি/last_fc_log_std	ফিচারসডিক্ট
নীতি/last_fc_log_std/bias	টেনসর	(6,)	float32
নীতি/last_fc_log_std/ওজন	টেনসর	(6, 256)	float32
নীতি/অরৈখিকতা	টেনসর		স্ট্রিং
নীতি/আউটপুট_ডিস্ট্রিবিউশন	টেনসর		স্ট্রিং
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_log_probs	টেনসর		float32
পদক্ষেপ/তথ্য/qpos	টেনসর	(9,)	float32
পদক্ষেপ/infos/qvel	টেনসর	(9,)	float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v1-মাধ্যম

ডাউনলোড সাইজ : 146.65 MiB
ডেটাসেটের আকার : 451.88 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	1,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
অ্যালগরিদম	টেনসর		স্ট্রিং
পুনরাবৃত্তি	টেনসর		int32
নীতি	ফিচারসডিক্ট
নীতি/fc0	ফিচারসডিক্ট
নীতি/fc0/পক্ষপাত	টেনসর	(256,)	float32
নীতি/fc0/ওজন	টেনসর	(256, 17)	float32
নীতি/fc1	ফিচারসডিক্ট
নীতি/fc1/পক্ষপাত	টেনসর	(256,)	float32
নীতি/fc1/ওজন	টেনসর	(256, 256)	float32
নীতি/লাস্ট_এফসি	ফিচারসডিক্ট
নীতি/লাস্ট_এফসি/পক্ষপাত	টেনসর	(6,)	float32
নীতি/লাস্ট_এফসি/ওজন	টেনসর	(6, 256)	float32
নীতি/last_fc_log_std	ফিচারসডিক্ট
নীতি/last_fc_log_std/bias	টেনসর	(6,)	float32
নীতি/last_fc_log_std/ওজন	টেনসর	(6, 256)	float32
নীতি/অরৈখিকতা	টেনসর		স্ট্রিং
নীতি/আউটপুট_ডিস্ট্রিবিউশন	টেনসর		স্ট্রিং
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_log_probs	টেনসর		float32
পদক্ষেপ/তথ্য/qpos	টেনসর	(9,)	float32
পদক্ষেপ/infos/qvel	টেনসর	(9,)	float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v1-মাঝারি-বিশেষজ্ঞ

ডাউনলোড সাইজ : 293.00 MiB
ডেটাসেটের আকার : 342.37 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	2,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_log_probs	টেনসর		float32
পদক্ষেপ/তথ্য/qpos	টেনসর	(9,)	float32
পদক্ষেপ/infos/qvel	টেনসর	(9,)	float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v1-মাঝারি-রিপ্লে

ডাউনলোড সাইজ : 57.68 MiB
ডেটাসেটের আকার : 34.59 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	202

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float64),
        'reward': float64,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
অ্যালগরিদম	টেনসর		স্ট্রিং
পুনরাবৃত্তি	টেনসর		int32
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float64
পদক্ষেপ/ছাড়	টেনসর		float64
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_log_probs	টেনসর		float64
পদক্ষেপ/তথ্য/qpos	টেনসর	(9,)	float64
পদক্ষেপ/infos/qvel	টেনসর	(9,)	float64
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float64
পদক্ষেপ/পুরস্কার	টেনসর		float64

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v1-পূর্ণ-রিপ্লে

ডাউনলোড সাইজ : 285.01 MiB
ডেটাসেটের আকার : 171.22 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন shuffle_files=False (ট্রেন)
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	1,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float64),
        'reward': float64,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
অ্যালগরিদম	টেনসর		স্ট্রিং
পুনরাবৃত্তি	টেনসর		int32
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float64
পদক্ষেপ/ছাড়	টেনসর		float64
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_log_probs	টেনসর		float64
পদক্ষেপ/তথ্য/qpos	টেনসর	(9,)	float64
পদক্ষেপ/infos/qvel	টেনসর	(9,)	float64
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float64
পদক্ষেপ/পুরস্কার	টেনসর		float64

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v1-এলোমেলো

ডাউনলোড সাইজ : 145.19 MiB
ডেটাসেটের আকার : 171.18 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন shuffle_files=False (ট্রেন)
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	1,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(9,), dtype=float32),
            'qvel': Tensor(shape=(9,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_log_probs	টেনসর		float32
পদক্ষেপ/তথ্য/qpos	টেনসর	(9,)	float32
পদক্ষেপ/infos/qvel	টেনসর	(9,)	float32
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v2-বিশেষজ্ঞ

ডাউনলোড সাইজ : 226.46 MiB
ডেটাসেটের আকার : 451.88 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	1,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
অ্যালগরিদম	টেনসর		স্ট্রিং
পুনরাবৃত্তি	টেনসর		int32
নীতি	ফিচারসডিক্ট
নীতি/fc0	ফিচারসডিক্ট
নীতি/fc0/পক্ষপাত	টেনসর	(256,)	float32
নীতি/fc0/ওজন	টেনসর	(256, 17)	float32
নীতি/fc1	ফিচারসডিক্ট
নীতি/fc1/পক্ষপাত	টেনসর	(256,)	float32
নীতি/fc1/ওজন	টেনসর	(256, 256)	float32
নীতি/লাস্ট_এফসি	ফিচারসডিক্ট
নীতি/লাস্ট_এফসি/পক্ষপাত	টেনসর	(6,)	float32
নীতি/লাস্ট_এফসি/ওজন	টেনসর	(6, 256)	float32
নীতি/last_fc_log_std	ফিচারসডিক্ট
নীতি/last_fc_log_std/bias	টেনসর	(6,)	float32
নীতি/last_fc_log_std/ওজন	টেনসর	(6, 256)	float32
নীতি/অরৈখিকতা	টেনসর		স্ট্রিং
নীতি/আউটপুট_ডিস্ট্রিবিউশন	টেনসর		স্ট্রিং
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_log_probs	টেনসর		float64
পদক্ষেপ/তথ্য/qpos	টেনসর	(9,)	float64
পদক্ষেপ/infos/qvel	টেনসর	(9,)	float64
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v2-পূর্ণ-রিপ্লে

ডাউনলোড সাইজ : 277.88 MiB
ডেটাসেটের আকার : 171.22 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন shuffle_files=False (ট্রেন)
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	1,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
অ্যালগরিদম	টেনসর		স্ট্রিং
পুনরাবৃত্তি	টেনসর		int32
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_log_probs	টেনসর		float64
পদক্ষেপ/তথ্য/qpos	টেনসর	(9,)	float64
পদক্ষেপ/infos/qvel	টেনসর	(9,)	float64
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v2-মাধ্যম

ডাউনলোড সাইজ : 226.71 MiB
ডেটাসেটের আকার : 451.88 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	1,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 17), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(6,), dtype=float32),
            'weight': Tensor(shape=(6, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
অ্যালগরিদম	টেনসর		স্ট্রিং
পুনরাবৃত্তি	টেনসর		int32
নীতি	ফিচারসডিক্ট
নীতি/fc0	ফিচারসডিক্ট
নীতি/fc0/পক্ষপাত	টেনসর	(256,)	float32
নীতি/fc0/ওজন	টেনসর	(256, 17)	float32
নীতি/fc1	ফিচারসডিক্ট
নীতি/fc1/পক্ষপাত	টেনসর	(256,)	float32
নীতি/fc1/ওজন	টেনসর	(256, 256)	float32
নীতি/লাস্ট_এফসি	ফিচারসডিক্ট
নীতি/লাস্ট_এফসি/পক্ষপাত	টেনসর	(6,)	float32
নীতি/লাস্ট_এফসি/ওজন	টেনসর	(6, 256)	float32
নীতি/last_fc_log_std	ফিচারসডিক্ট
নীতি/last_fc_log_std/bias	টেনসর	(6,)	float32
নীতি/last_fc_log_std/ওজন	টেনসর	(6, 256)	float32
নীতি/অরৈখিকতা	টেনসর		স্ট্রিং
নীতি/আউটপুট_ডিস্ট্রিবিউশন	টেনসর		স্ট্রিং
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_log_probs	টেনসর		float64
পদক্ষেপ/তথ্য/qpos	টেনসর	(9,)	float64
পদক্ষেপ/infos/qvel	টেনসর	(9,)	float64
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v2-মাঝারি-বিশেষজ্ঞ

ডাউনলোড সাইজ : 452.58 MiB
ডেটাসেটের আকার : 342.37 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	2,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_log_probs	টেনসর		float64
পদক্ষেপ/তথ্য/qpos	টেনসর	(9,)	float64
পদক্ষেপ/infos/qvel	টেনসর	(9,)	float64
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v2-মাঝারি-রিপ্লে

ডাউনলোড সাইজ : 56.69 MiB
ডেটাসেটের আকার : 34.59 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	202

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
অ্যালগরিদম	টেনসর		স্ট্রিং
পুনরাবৃত্তি	টেনসর		int32
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_log_probs	টেনসর		float64
পদক্ষেপ/তথ্য/qpos	টেনসর	(9,)	float64
পদক্ষেপ/infos/qvel	টেনসর	(9,)	float64
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):

d4rl_mujoco_halfcheetah/v2-এলোমেলো

ডাউনলোড সাইজ : 226.34 MiB
ডেটাসেটের আকার : 171.18 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন shuffle_files=False (ট্রেন)
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	1,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(9,), dtype=float64),
            'qvel': Tensor(shape=(9,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
পদক্ষেপ	ডেটাসেট
পদক্ষেপ/ক্রিয়া	টেনসর	(6,)	float32
পদক্ষেপ/ছাড়	টেনসর		float32
পদক্ষেপ/তথ্য	ফিচারসডিক্ট
steps/infos/action_log_probs	টেনসর		float64
পদক্ষেপ/তথ্য/qpos	টেনসর	(9,)	float64
পদক্ষেপ/infos/qvel	টেনসর	(9,)	float64
steps/is_first	টেনসর		bool
ধাপ/শেষ_শেষ	টেনসর		bool
steps/is_terminal	টেনসর		bool
পদক্ষেপ/পর্যবেক্ষণ	টেনসর	(17,)	float32
পদক্ষেপ/পুরস্কার	টেনসর		float32

উদাহরণ ( tfds.as_dataframe ):