rlu_control_suite

  • বর্ণনা :

RL আনপ্লাগড হল অফলাইন রিইনফোর্সমেন্ট শেখার জন্য বেঞ্চমার্কের স্যুট। RL আনপ্লাগড নিম্নলিখিত বিবেচনার ভিত্তিতে ডিজাইন করা হয়েছে: ব্যবহারের সহজতর করার জন্য, আমরা একটি ইউনিফাইড API সহ ডেটাসেটগুলি সরবরাহ করি যা অনুশীলনকারীর পক্ষে একটি সাধারণ পাইপলাইন প্রতিষ্ঠিত হওয়ার পরে স্যুটের সমস্ত ডেটার সাথে কাজ করা সহজ করে তোলে।

ডেটাসেটগুলি ধাপ এবং পর্বগুলি উপস্থাপন করতে RLDS বিন্যাস অনুসরণ করে।

DeepMind Control Suite Tassa et al., 2018 হল MuJoCo Todorov et al., 2012 -এ বাস্তবায়িত নিয়ন্ত্রণ কার্যগুলির একটি সেট৷ আমরা স্যুটে প্রদত্ত কার্যগুলির একটি উপসেট বিবেচনা করি যা বিস্তৃত সমস্যার কভার করে।

এই ডোমেনের বেশিরভাগ ডেটাসেট D4PG ব্যবহার করে তৈরি করা হয়। পরিবেশের জন্য ম্যানিপুলেটর ইনসার্ট বল এবং ম্যানিপুলেটর ইনসার্ট পেগ আমরা ডেটা জেনারেট করতে V-MPO Song et al., 2020 ব্যবহার করি কারণ D4PG এই কাজগুলি সমাধান করতে অক্ষম। আমরা 9টি কন্ট্রোল স্যুট টাস্কের জন্য ডেটাসেট প্রকাশ করি। কীভাবে ডেটাসেট তৈরি করা হয়েছিল তার বিশদ বিবরণের জন্য, অনুগ্রহ করে কাগজটি পড়ুন।

ডিপমাইন্ড কন্ট্রোল স্যুট একটি প্রথাগত ক্রমাগত অ্যাকশন আরএল বেঞ্চমার্ক। বিশেষ করে, আমরা আপনাকে ডিপমাইন্ড কন্ট্রোল স্যুটে আপনার পদ্ধতি পরীক্ষা করার পরামর্শ দিচ্ছি যদি আপনি অন্যান্য অফলাইন RL পদ্ধতির সাথে তুলনা করতে আগ্রহী হন।

@inproceedings{gulcehre2020rl,
 title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
 author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
 booktitle = {Advances in Neural Information Processing Systems},
 pages = {7248--7259},
 volume = {33},
 year = {2020}
}

rlu_control_suite/cartpole_swingup (ডিফল্ট কনফিগারেশন)

  • ডেটাসেটের আকার : 2.12 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 40
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
episode_id টেনসর int64
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (1,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ ফিচারসডিক্ট
পদক্ষেপ/পর্যবেক্ষণ/অবস্থান টেনসর (৩,) float32
পদক্ষেপ/পর্যবেক্ষণ/বেগ টেনসর (2,) float32
পদক্ষেপ/পুরস্কার টেনসর float32
টাইমস্ট্যাম্প টেনসর int64

rlu_control_suite/cheetah_run

  • ডেটাসেটের আকার : 36.58 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 300
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(8,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
episode_id টেনসর int64
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (6,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ ফিচারসডিক্ট
পদক্ষেপ/পর্যবেক্ষণ/অবস্থান টেনসর (8,) float32
পদক্ষেপ/পর্যবেক্ষণ/বেগ টেনসর (9,) float32
পদক্ষেপ/পুরস্কার টেনসর float32
টাইমস্ট্যাম্প টেনসর int64

rlu_control_suite/finger_turn_hard

  • ডেটাসেটের আকার : 47.61 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 500
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(2,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dist_to_target': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(4,), dtype=float32),
            'target_position': Tensor(shape=(2,), dtype=float32),
            'velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
episode_id টেনসর int64
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (2,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ ফিচারসডিক্ট
পদক্ষেপ/পর্যবেক্ষণ/dist_to_target টেনসর (1,) float32
পদক্ষেপ/পর্যবেক্ষণ/অবস্থান টেনসর (৪,) float32
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য_অবস্থান টেনসর (2,) float32
পদক্ষেপ/পর্যবেক্ষণ/বেগ টেনসর (৩,) float32
পদক্ষেপ/পুরস্কার টেনসর float32
টাইমস্ট্যাম্প টেনসর int64

rlu_control_suite/fish_swim

  • ডেটাসেটের আকার : 32.81 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 200
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'joint_angles': Tensor(shape=(7,), dtype=float32),
            'target': Tensor(shape=(3,), dtype=float32),
            'upright': Tensor(shape=(1,), dtype=float32),
            'velocity': Tensor(shape=(13,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
episode_id টেনসর int64
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (5,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ ফিচারসডিক্ট
পদক্ষেপ/পর্যবেক্ষণ/জয়েন্ট_কোণ টেনসর (৭,) float32
পদক্ষেপ/পর্যবেক্ষণ/লক্ষ্য টেনসর (৩,) float32
পদক্ষেপ/পর্যবেক্ষণ/সঠিক টেনসর (1,) float32
পদক্ষেপ/পর্যবেক্ষণ/বেগ টেনসর (13,) float32
পদক্ষেপ/পুরস্কার টেনসর float32
টাইমস্ট্যাম্প টেনসর int64

rlu_control_suite/humanoid_run

  • ডেটাসেটের আকার : 1.21 GiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 3,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
episode_id টেনসর int64
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (২১,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ ফিচারসডিক্ট
পদক্ষেপ/পর্যবেক্ষণ/com_velocity টেনসর (৩,) float32
পদক্ষেপ/পর্যবেক্ষন/শেষ টেনসর (12,) float32
পদক্ষেপ/পর্যবেক্ষণ/মাথা_উচ্চতা টেনসর (1,) float32
পদক্ষেপ/পর্যবেক্ষণ/জয়েন্ট_কোণ টেনসর (২১,) float32
পদক্ষেপ/পর্যবেক্ষণ/ধড়_উল্লম্ব টেনসর (৩,) float32
পদক্ষেপ/পর্যবেক্ষণ/বেগ টেনসর (২৭,) float32
পদক্ষেপ/পুরস্কার টেনসর float32
টাইমস্ট্যাম্প টেনসর int64

rlu_control_suite/manipulator_insert_ball

  • ডেটাসেটের আকার : 385.41 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,500
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
episode_id টেনসর int64
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (5,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ ফিচারসডিক্ট
পদক্ষেপ/পর্যবেক্ষণ/আর্ম_পোস টেনসর (16,) float32
পদক্ষেপ/পর্যবেক্ষণ/আর্ম_ভেল টেনসর (8,) float32
পদক্ষেপ/পর্যবেক্ষণ/হ্যান্ড_পোস টেনসর (৪,) float32
পদক্ষেপ/পর্যবেক্ষণ/অবজেক্ট_পোস টেনসর (৪,) float32
পদক্ষেপ/পর্যবেক্ষণ/বস্তু_ভেল টেনসর (৩,) float32
পদক্ষেপ/পর্যবেক্ষণ/টার্গেট_পোস টেনসর (৪,) float32
পদক্ষেপ/পর্যবেক্ষণ/স্পর্শ টেনসর (5,) float32
পদক্ষেপ/পুরস্কার টেনসর float32
টাইমস্ট্যাম্প টেনসর int64

rlu_control_suite/manipulator_insert_peg

  • ডেটাসেটের আকার : 385.73 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,500
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(5,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'arm_pos': Tensor(shape=(16,), dtype=float32),
            'arm_vel': Tensor(shape=(8,), dtype=float32),
            'hand_pos': Tensor(shape=(4,), dtype=float32),
            'object_pos': Tensor(shape=(4,), dtype=float32),
            'object_vel': Tensor(shape=(3,), dtype=float32),
            'target_pos': Tensor(shape=(4,), dtype=float32),
            'touch': Tensor(shape=(5,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
episode_id টেনসর int64
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (5,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ ফিচারসডিক্ট
পদক্ষেপ/পর্যবেক্ষণ/আর্ম_পোস টেনসর (16,) float32
পদক্ষেপ/পর্যবেক্ষণ/আর্ম_ভেল টেনসর (8,) float32
পদক্ষেপ/পর্যবেক্ষণ/হ্যান্ড_পোস টেনসর (৪,) float32
পদক্ষেপ/পর্যবেক্ষণ/অবজেক্ট_পোস টেনসর (৪,) float32
পদক্ষেপ/পর্যবেক্ষণ/বস্তু_ভেল টেনসর (৩,) float32
পদক্ষেপ/পর্যবেক্ষণ/টার্গেট_পোস টেনসর (৪,) float32
পদক্ষেপ/পর্যবেক্ষণ/স্পর্শ টেনসর (5,) float32
পদক্ষেপ/পুরস্কার টেনসর float32
টাইমস্ট্যাম্প টেনসর int64

rlu_control_suite/walker_stand

  • ডেটাসেটের আকার : 31.78 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 200
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
episode_id টেনসর int64
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (6,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ ফিচারসডিক্ট
পদক্ষেপ/পর্যবেক্ষণ/উচ্চতা টেনসর (1,) float32
পদক্ষেপ/পর্যবেক্ষণ/অভিযোজন টেনসর (14,) float32
পদক্ষেপ/পর্যবেক্ষণ/বেগ টেনসর (9,) float32
পদক্ষেপ/পুরস্কার টেনসর float32
টাইমস্ট্যাম্প টেনসর int64

rlu_control_suite/walker_walk

  • ডেটাসেটের আকার : 31.78 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 200
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_id': int64,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': float32,
    }),
    'timestamp': int64,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
episode_id টেনসর int64
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (6,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ ফিচারসডিক্ট
পদক্ষেপ/পর্যবেক্ষণ/উচ্চতা টেনসর (1,) float32
পদক্ষেপ/পর্যবেক্ষণ/অভিযোজন টেনসর (14,) float32
পদক্ষেপ/পর্যবেক্ষণ/বেগ টেনসর (9,) float32
পদক্ষেপ/পুরস্কার টেনসর float32
টাইমস্ট্যাম্প টেনসর int64