bc_z

  • Описание :

Телеопированный робот Google в основном выбирает место со стола

Расколоть Примеры
'train' 39 350
'val' 3914
  • Структура функции :
FeaturesDict({
    'steps': Dataset({
        'action': FeaturesDict({
            'future/axis_angle_residual': Tensor(shape=(30,), dtype=float32, description=The next 10 actions for the rotation. Each action is a 3D delta to add to the current axis angle.),
            'future/target_close': Tensor(shape=(10,), dtype=int64, description=The next 10 actions for the gripper. Each action is the value the gripper closure should be changed to (notably it is *not* a delta.)),
            'future/xyz_residual': Tensor(shape=(30,), dtype=float32, description=The next 10 actions for the positions. Each action is a 3D delta to add to current position.),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'episode_success': float32,
            'image': Image(shape=(171, 213, 3), dtype=uint8, description=Camera image of the robot, downsampled 3x),
            'natural_language_embedding': Tensor(shape=(512,), dtype=float32, description=An embedding of the task via Universal Sentence Encoder (https://tfhub.dev/google/universal-sentence-encoder/4)),
            'natural_language_instruction': string,
            'present/autonomous': int64,
            'present/axis_angle': Tensor(shape=(3,), dtype=float32, description=The current rotation of the end effector in axis-angle representation.),
            'present/intervention': int64,
            'present/sensed_close': Tensor(shape=(1,), dtype=float32, description=How much the gripper is currently closed. Scaled from 0 to 1, but not all values from 0 to 1 are reachable. The range in the data is about 0.2 to 1),
            'present/xyz': Tensor(shape=(3,), dtype=float32, description=The current position of the end effector in axis-angle representation, in robot frame),
            'sequence_length': int64,
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание
ВозможностиDict
шаги Набор данных
шаги/действия ВозможностиDict
шаги/действие/будущее/axis_angle_residual Тензор (30,) поплавок32 Следующие 10 действий по ротации. Каждое действие представляет собой трехмерную дельту, добавляемую к текущему углу оси.
шаги/действие/будущее/target_close Тензор (10,) int64 Следующие 10 действий для захвата. Каждое действие — это значение, на которое должно быть изменено закрытие захвата (в частности, это не дельта).
шаги/действие/будущее/xyz_residual Тензор (30,) поплавок32 Следующие 10 действий по позициям. Каждое действие представляет собой трехмерную дельту, которую можно добавить к текущей позиции.
шаги/is_first Тензор логическое значение
шаги/is_last Тензор логическое значение
шаги/is_terminal Тензор логическое значение
шаги/наблюдение ВозможностиDict
шаги/наблюдение/episode_success Тензор поплавок32 Ярлык успеха 0–1
шаги/наблюдение/изображение Изображение (171, 213, 3) uint8 Изображение робота с камеры, уменьшенное в 3 раза
шаги/наблюдение/natural_language_embedding Тензор (512,) поплавок32 Встраивание задачи через универсальный кодировщик предложений ( https://tfhub.dev/google/universal-sentence-encoder/4 ).
шаги/наблюдение/natural_language_instruction Тензор нить Задача, которую попросили выполнить робота.
шаги/наблюдение/настоящее/автономное Тензор int64 Эпизоды собираются через DAgger. Это метка 0/1, указывающая, исходит ли действие от политики или от телеоператора. 1 = из политики.
шаги/наблюдение/настоящее/axis_angle Тензор (3,) поплавок32 Текущее вращение конечного эффектора в представлении оси-угла.
шаги/наблюдение/настоящее/вмешательство Тензор int64 Эпизоды собираются через DAgger. Это метка 0/1, указывающая, исходит ли действие от политики или от телеоператора. 1 = от телеоператора. Это полная противоположность настоящему/автономному
шаги/наблюдение/настоящее/почувствованное_закрытие Тензор (1,) поплавок32 Насколько захват в данный момент закрыт. Масштабируется от 0 до 1, но не все значения от 0 до 1 достижимы. Диапазон данных составляет от 0,2 до 1.
шаги/наблюдение/настоящее/xyz Тензор (3,) поплавок32 Текущее положение конечного эффектора в представлении угла оси в кадре робота.
шаги/наблюдение/sequence_length Тензор int64 Продолжительность эпизода
шаги/награда Скаляр поплавок32
  • Цитата :
@inproceedings{jang2021bc,
title={ {BC}-Z: Zero-Shot Task Generalization with Robotic Imitation Learning},
author={Eric Jang and Alex Irpan and Mohi Khansari and Daniel Kappler and Frederik Ebert and Corey Lynch and Sergey Levine and Chelsea Finn},
booktitle={5th Annual Conference on Robot Learning},
year={2021},
url={https://openreview.net/forum?id=8kbp23tSGYv} }