bc_z

  • Descrizione :

Robot di Google teleopato che svolge principalmente la raccolta da un tavolo

Diviso Esempi
'train' 39.350
'val' 3.914
  • Struttura delle caratteristiche :
FeaturesDict({
    'steps': Dataset({
        'action': FeaturesDict({
            'future/axis_angle_residual': Tensor(shape=(30,), dtype=float32, description=The next 10 actions for the rotation. Each action is a 3D delta to add to the current axis angle.),
            'future/target_close': Tensor(shape=(10,), dtype=int64, description=The next 10 actions for the gripper. Each action is the value the gripper closure should be changed to (notably it is *not* a delta.)),
            'future/xyz_residual': Tensor(shape=(30,), dtype=float32, description=The next 10 actions for the positions. Each action is a 3D delta to add to current position.),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'episode_success': float32,
            'image': Image(shape=(171, 213, 3), dtype=uint8, description=Camera image of the robot, downsampled 3x),
            'natural_language_embedding': Tensor(shape=(512,), dtype=float32, description=An embedding of the task via Universal Sentence Encoder (https://tfhub.dev/google/universal-sentence-encoder/4)),
            'natural_language_instruction': string,
            'present/autonomous': int64,
            'present/axis_angle': Tensor(shape=(3,), dtype=float32, description=The current rotation of the end effector in axis-angle representation.),
            'present/intervention': int64,
            'present/sensed_close': Tensor(shape=(1,), dtype=float32, description=How much the gripper is currently closed. Scaled from 0 to 1, but not all values from 0 to 1 are reachable. The range in the data is about 0.2 to 1),
            'present/xyz': Tensor(shape=(3,), dtype=float32, description=The current position of the end effector in axis-angle representation, in robot frame),
            'sequence_length': int64,
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
passi Set di dati
passi/azione CaratteristicheDict
passi/azione/futuro/asse_angolo_residuo Tensore (30,) float32 Le prossime 10 azioni per la rotazione. Ogni azione è un delta 3D da aggiungere all'angolo dell'asse corrente.
passi/azione/futuro/target_close Tensore (10,) int64 Le prossime 10 azioni per la pinza. Ogni azione è il valore a cui deve essere modificata la chiusura della pinza (in particolare non è un delta).
passi/azione/futuro/xyz_residual Tensore (30,) float32 Le prossime 10 azioni per le posizioni. Ogni azione è un delta 3D da aggiungere alla posizione corrente.
passi/è_primo Tensore bool
passi/è_ultimo Tensore bool
passi/è_terminale Tensore bool
passi/osservazione CaratteristicheDict
passi/osservazione/episodio_successo Tensore float32 Un'etichetta di successo 0-1
passi/osservazione/immagine Immagine (171, 213, 3) uint8 Immagine della telecamera del robot, sottocampionata 3x
passaggi/osservazione/incorporamento_linguaggio_naturale Tensore (512,) float32 Un incorporamento dell'attività tramite Universal Sentence Encoder ( https://tfhub.dev/google/universal-sentence-encoder/4 )
passi/osservazione/istruzione_linguaggio_naturale Tensore corda Il compito che è stato chiesto al robot di svolgere.
passi/osservazione/presente/autonomo Tensore int64 Gli episodi vengono raccolti tramite DAgger. Si tratta di un'etichetta 0/1 che indica se l'azione proviene dalla policy o dal teleoperatore. 1 = dalla politica.
passi/osservazione/presente/angolo_asse Tensore (3,) float32 La rotazione corrente dell'effettore finale nella rappresentazione asse-angolo.
passi/osservazione/presente/intervento Tensore int64 Gli episodi vengono raccolti tramite DAgger. Si tratta di un'etichetta 0/1 che indica se l'azione proviene dalla policy o dal teleoperatore. 1 = dal teleoperatore. Questo è esattamente l’opposto di presente/autonomo
passi/osservazione/presente/sensed_close Tensore (1,) float32 Quanto è attualmente chiusa la pinza. Scalato da 0 a 1, ma non tutti i valori da 0 a 1 sono raggiungibili. L'intervallo nei dati è circa da 0,2 a 1
passi/osservazione/presente/xyz Tensore (3,) float32 La posizione corrente dell'effettore finale nella rappresentazione dell'angolo dell'asse, nel frame del robot
passi/osservazione/lunghezza_sequenza Tensore int64 Durata dell'episodio
passi/ricompensa Scalare float32
  • Citazione :
@inproceedings{jang2021bc,
title={ {BC}-Z: Zero-Shot Task Generalization with Robotic Imitation Learning},
author={Eric Jang and Alex Irpan and Mohi Khansari and Daniel Kappler and Frederik Ebert and Corey Lynch and Sergey Levine and Chelsea Finn},
booktitle={5th Annual Conference on Robot Learning},
year={2021},
url={https://openreview.net/forum?id=8kbp23tSGYv} }