bot_adversarial_dialogue

  • Descrizione :

Set di dati del dialogo contraddittorio del bot.

Set di dati di dialogo etichettati con carattere offensivo dall'attività di dialogo contraddittorio del bot. I dialoghi sono stati raccolti chiedendo agli esseri umani di parlare in modo contraddittorio con i robot.

Maggiori dettagli nel documento .

@misc{xu2021recipes,
      title={Recipes for Safety in Open-domain Chatbots},
      author={Jing Xu and Da Ju and Margaret Li and Y-Lan Boureau and Jason Weston and Emily Dinan},
      year={2021},
      eprint={2010.07079},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

bot_adversarial_dialogue/dialogue_datasets (configurazione predefinita)

  • Descrizione della configurazione : i set di dati del dialogo, divisi in suddivisioni di treno, convalida e test.

  • Dimensione download : 3.06 MiB

  • Dimensione del set di dati : 23.38 MiB

  • Divide :

Diviso Esempi
'test' 2.598
'train' 69.274
'valid' 7.002
  • Struttura delle caratteristiche :
FeaturesDict({
    'bot_persona': Sequence(Text(shape=(), dtype=string)),
    'dialogue_id': float32,
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'round_id': float32,
    'speaker_to_eval': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
bot_persona Sequenza(Testo) (Nessuno,) corda La persona impersonata dal bot.
dialog_id Tensore float32
episodio_fatto Tensore bool
id Testo corda L'ID del campione.
etichette ClassLabel int64
round_id Tensore float32
altoparlante_to_eval Testo corda L'oratore delle espressioni etichettate.
testo Testo corda L'enunciato da classificare.

bot_adversarial_dialogue/human_nonadv_safety_eval

  • Descrizione della configurazione : un set di valutazione della sicurezza umana valutato dai lavoratori in crowdsourcing per quanto riguarda l'offensività.

  • Dimensione del download : 10.57 KiB

  • Dimensione del set di dati : 34.55 KiB

  • Divide :

Diviso Esempi
'test' 180
  • Struttura delle caratteristiche :
FeaturesDict({
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
episodio_fatto Tensore bool
id Testo corda L'ID del campione.
etichette ClassLabel int64
testo Testo corda L'enunciato da classificare.