bc_z

  • Descripción :

El robot de Google teleoptado se dedica principalmente a recoger lugares de una mesa

Dividir Ejemplos
'train' 39.350
'val' 3,914
  • Estructura de características :
FeaturesDict({
    'steps': Dataset({
        'action': FeaturesDict({
            'future/axis_angle_residual': Tensor(shape=(30,), dtype=float32, description=The next 10 actions for the rotation. Each action is a 3D delta to add to the current axis angle.),
            'future/target_close': Tensor(shape=(10,), dtype=int64, description=The next 10 actions for the gripper. Each action is the value the gripper closure should be changed to (notably it is *not* a delta.)),
            'future/xyz_residual': Tensor(shape=(30,), dtype=float32, description=The next 10 actions for the positions. Each action is a 3D delta to add to current position.),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'episode_success': float32,
            'image': Image(shape=(171, 213, 3), dtype=uint8, description=Camera image of the robot, downsampled 3x),
            'natural_language_embedding': Tensor(shape=(512,), dtype=float32, description=An embedding of the task via Universal Sentence Encoder (https://tfhub.dev/google/universal-sentence-encoder/4)),
            'natural_language_instruction': string,
            'present/autonomous': int64,
            'present/axis_angle': Tensor(shape=(3,), dtype=float32, description=The current rotation of the end effector in axis-angle representation.),
            'present/intervention': int64,
            'present/sensed_close': Tensor(shape=(1,), dtype=float32, description=How much the gripper is currently closed. Scaled from 0 to 1, but not all values from 0 to 1 are reachable. The range in the data is about 0.2 to 1),
            'present/xyz': Tensor(shape=(3,), dtype=float32, description=The current position of the end effector in axis-angle representation, in robot frame),
            'sequence_length': int64,
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción
FuncionesDict
pasos Conjunto de datos
pasos/acción FuncionesDict
pasos/acción/futuro/axis_angle_residual Tensor (30,) flotador32 Las próximas 10 acciones para la rotación. Cada acción es un delta 3D que se agrega al ángulo del eje actual.
pasos/acción/futuro/objetivo_cerrar Tensor (10,) int64 Las siguientes 10 acciones para la pinza. Cada acción es el valor al que se debe cambiar el cierre de la pinza (en particular, no es un delta).
pasos/acción/futuro/xyz_residual Tensor (30,) flotador32 Las próximas 10 acciones para los puestos. Cada acción es un delta 3D para agregar a la posición actual.
pasos/es_primero Tensor booleano
pasos/es_último Tensor booleano
pasos/es_terminal Tensor booleano
pasos/observación FuncionesDict
pasos/observación/episodio_éxito Tensor flotador32 Una etiqueta de éxito 0-1
pasos/observación/imagen Imagen (171, 213, 3) uint8 Imagen de la cámara del robot, reducida 3x
pasos/observación/incrustación_lenguaje_natural Tensor (512,) flotador32 Una incorporación de la tarea a través de Universal Sentence Encoder ( https://tfhub.dev/google/universal-sentence-encoder/4 )
pasos/observación/instrucción_lenguaje_natural Tensor cadena La tarea que se le pidió al robot que hiciera.
pasos/observación/presente/autónomo Tensor int64 Los episodios se recopilan a través de DAgger. Esta es una etiqueta 0/1 para determinar si la acción proviene de la póliza o del teleoperador. 1 = de la póliza.
pasos/observación/presente/axis_angle Tensor (3,) flotador32 La rotación actual del efector final en representación de eje-ángulo.
pasos/observación/presente/intervención Tensor int64 Los episodios se recopilan a través de DAgger. Esta es una etiqueta 0/1 para determinar si la acción proviene de la póliza o del teleoperador. 1 = del teleoperador. Esto es exactamente lo opuesto a presente/autónomo.
pasos/observación/presente/sentido_cerrar Tensor (1,) flotador32 Cuánto está actualmente cerrada la pinza. Escalado de 0 a 1, pero no todos los valores de 0 a 1 son alcanzables. El rango en los datos es de aproximadamente 0,2 a 1.
pasos/observación/presente/xyz Tensor (3,) flotador32 La posición actual del efector final en representación de eje-ángulo, en el marco del robot.
pasos/observación/longitud_secuencia Tensor int64 Duración del episodio
pasos/recompensa Escalar flotador32
  • Cita :
@inproceedings{jang2021bc,
title={ {BC}-Z: Zero-Shot Task Generalization with Robotic Imitation Learning},
author={Eric Jang and Alex Irpan and Mohi Khansari and Daniel Kappler and Frederik Ebert and Corey Lynch and Sergey Levine and Chelsea Finn},
booktitle={5th Annual Conference on Robot Learning},
year={2021},
url={https://openreview.net/forum?id=8kbp23tSGYv} }