bc_z

  • Descripción :

El robot de Google teleoptado se dedica principalmente a recoger lugares de una mesa

Dividir Ejemplos
'train' 39.350
'val' 3,914
  • Estructura de características :
FeaturesDict({
    'steps': Dataset({
        'action': FeaturesDict({
            'future/axis_angle_residual': Tensor(shape=(30,), dtype=float32),
            'future/target_close': Tensor(shape=(10,), dtype=int64),
            'future/xyz_residual': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'episode_success': float32,
            'image': Image(shape=(171, 213, 3), dtype=uint8),
            'natural_language_embedding': Tensor(shape=(512,), dtype=float32),
            'natural_language_instruction': string,
            'present/autonomous': int64,
            'present/axis_angle': Tensor(shape=(3,), dtype=float32),
            'present/intervention': int64,
            'present/sensed_close': Tensor(shape=(1,), dtype=float32),
            'present/xyz': Tensor(shape=(3,), dtype=float32),
            'sequence_length': int64,
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción
FuncionesDict
pasos Conjunto de datos
pasos/acción FuncionesDict
pasos/acción/futuro/axis_angle_residual Tensor (30,) flotador32 Las próximas 10 acciones para la rotación. Cada acción es un delta 3D que se agrega al ángulo del eje actual.
pasos/acción/futuro/objetivo_cerrar Tensor (10,) int64 Las siguientes 10 acciones para la pinza. Cada acción es el valor al que se debe cambiar el cierre de la pinza (en particular, no es un delta).
pasos/acción/futuro/xyz_residual Tensor (30,) flotador32 Las próximas 10 acciones para los puestos. Cada acción es un delta 3D para agregar a la posición actual.
pasos/es_primero Tensor booleano
pasos/es_último Tensor booleano
pasos/es_terminal Tensor booleano
pasos/observación FuncionesDict
pasos/observación/episodio_éxito Tensor flotador32 Una etiqueta de éxito 0-1
pasos/observación/imagen Imagen (171, 213, 3) uint8 Imagen de la cámara del robot, reducida 3x
pasos/observación/incrustación_lenguaje_natural Tensor (512,) flotador32 Una incorporación de la tarea a través de Universal Sentence Encoder ( https://tfhub.dev/google/universal-sentence-encoder/4 )
pasos/observación/instrucción_lenguaje_natural Tensor cadena La tarea que se le pidió al robot que hiciera.
pasos/observación/presente/autónomo Tensor int64 Los episodios se recopilan a través de DAgger. Esta es una etiqueta 0/1 para determinar si la acción proviene de la póliza o del teleoperador. 1 = de la póliza.
pasos/observación/presente/axis_angle Tensor (3,) flotador32 La rotación actual del efector final en representación de eje-ángulo.
pasos/observación/presente/intervención Tensor int64 Los episodios se recopilan a través de DAgger. Esta es una etiqueta 0/1 para determinar si la acción proviene de la póliza o del teleoperador. 1 = del teleoperador. Esto es exactamente lo opuesto a presente/autónomo.
pasos/observación/presente/sentido_cerrar Tensor (1,) flotador32 Cuánto está actualmente cerrada la pinza. Escalado de 0 a 1, pero no todos los valores de 0 a 1 son alcanzables. El rango en los datos es de aproximadamente 0,2 a 1.
pasos/observación/presente/xyz Tensor (3,) flotador32 La posición actual del efector final en representación de eje-ángulo, en el marco del robot.
pasos/observación/longitud_secuencia Tensor int64 Duración del episodio
pasos/recompensa Escalar flotador32
  • Cita :
@inproceedings{jang2021bc,
title={ {BC}-Z: Zero-Shot Task Generalization with Robotic Imitation Learning},
author={Eric Jang and Alex Irpan and Mohi Khansari and Daniel Kappler and Frederik Ebert and Corey Lynch and Sergey Levine and Chelsea Finn},
booktitle={5th Annual Conference on Robot Learning},
year={2021},
url={https://openreview.net/forum?id=8kbp23tSGYv} }