bot_adversarial_dialogue

  • Descriptif :

Ensemble de données de dialogue contradictoire avec les robots.

Ensembles de données de dialogue étiquetés comme offensants de la tâche Bot Adversarial Dialogue. Les dialogues ont été collectés en demandant aux humains de parler de manière contradictoire aux robots.

Plus de détails dans le journal .

@misc{xu2021recipes,
      title={Recipes for Safety in Open-domain Chatbots},
      author={Jing Xu and Da Ju and Margaret Li and Y-Lan Boureau and Jason Weston and Emily Dinan},
      year={2021},
      eprint={2010.07079},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

bot_adversarial_dialogue/dialogue_datasets (configuration par défaut)

  • Description de la configuration : Les ensembles de données de dialogue, divisés en fractionnements de train, de validation et de test.

  • Taille du téléchargement : 3.06 MiB

  • Taille de l'ensemble de données : 23.38 MiB

  • Divisions :

Diviser Exemples
'test' 2 598
'train' 69 274
'valid' 7 002
  • Structure des fonctionnalités :
FeaturesDict({
    'bot_persona': Sequence(Text(shape=(), dtype=string)),
    'dialogue_id': float32,
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'round_id': float32,
    'speaker_to_eval': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
bot_persona Séquence (Texte) (Aucun,) chaîne Le personnage emprunté par le bot.
dialogue_id Tenseur flotteur32
épisode_done Tenseur bouffon
identifiant Texte chaîne L’identifiant de l’échantillon.
Étiquettes Étiquette de classe int64
rond_id Tenseur flotteur32
haut-parleur_to_eval Texte chaîne Le locuteur des énoncés étiquetés.
texte Texte chaîne L'énoncé à classer.

bot_adversarial_dialogue/human_nonadv_safety_eval

  • Description de la configuration : Un ensemble d'évaluation de la sécurité humaine évalué par des travailleurs participatifs pour leur caractère offensant.

  • Taille du téléchargement : 10.57 KiB

  • Taille du jeu de données : 34.55 KiB

  • Divisions :

Diviser Exemples
'test' 180
  • Structure des fonctionnalités :
FeaturesDict({
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
épisode_done Tenseur bouffon
identifiant Texte chaîne L’identifiant de l’échantillon.
Étiquettes Étiquette de classe int64
texte Texte chaîne L'énoncé à classer.