bot_adversarial_dialogue

  • Descripción :

Conjunto de datos de diálogo adversario de bots.

Conjuntos de datos de diálogo etiquetados con ofensiva de la tarea Bot Adversarial Dialogue. Los diálogos se recopilaron pidiendo a los humanos que hablaran de manera adversa con los robots.

Más detalles en el artículo .

@misc{xu2021recipes,
      title={Recipes for Safety in Open-domain Chatbots},
      author={Jing Xu and Da Ju and Margaret Li and Y-Lan Boureau and Jason Weston and Emily Dinan},
      year={2021},
      eprint={2010.07079},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

bot_adversarial_dialogue/dialogue_datasets (configuración predeterminada)

  • Descripción de la configuración : los conjuntos de datos de diálogo, divididos en divisiones de tren, validación y prueba.

  • Tamaño de descarga : 3.06 MiB

  • Tamaño del conjunto de datos : 23.38 MiB

  • Divisiones :

Dividir Ejemplos
'test' 2,598
'train' 69.274
'valid' 7.002
  • Estructura de características :
FeaturesDict({
    'bot_persona': Sequence(Text(shape=(), dtype=string)),
    'dialogue_id': float32,
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'round_id': float32,
    'speaker_to_eval': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción
FuncionesDict
bot_persona Secuencia (Texto) (Ninguno,) cadena La persona suplantada por el bot.
id_diálogo Tensor flotador32
episodio_hecho Tensor booleano
identificación Texto cadena La identificación de la muestra.
etiquetas Etiqueta de clase int64
id_redondo Tensor flotador32
altavoz_a_evaluación Texto cadena El hablante de las declaraciones etiquetadas.
texto Texto cadena El enunciado para clasificar.

bot_adversarial_dialogue/human_nonadv_safety_eval

  • Descripción de la configuración : un conjunto de evaluación de seguridad humana evaluado por trabajadores colaborativos en busca de ofensiva.

  • Tamaño de descarga : 10.57 KiB

  • Tamaño del conjunto de datos : 34.55 KiB

  • Divisiones :

Dividir Ejemplos
'test' 180
  • Estructura de características :
FeaturesDict({
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción
FuncionesDict
episodio_hecho Tensor booleano
identificación Texto cadena La identificación de la muestra.
etiquetas Etiqueta de clase int64
texto Texto cadena El enunciado para clasificar.