- Description :
RealToxicityPrompts : évaluation de la dégénérescence neuronale toxique dans les modèles de langage
RealToxicityPrompts est un corpus d'invites en anglais (en particulier des débuts de phrases) de toxicité variable. Ces invites sont destinées à être données comme contextes à un modèle de langage autorégressif (c'est-à-dire GPT-2) et utilisées pour générer des complétions.
Plus de détails sont présentés dans le document original.
Page d'accueil : https://github.com/allenai/real-toxicity-prompts
Code source :
tfds.datasets.real_toxicity_prompts.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
3.46 GiB
Taille de l'ensemble de données :
81.22 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :
Diviser | Exemples |
---|---|
'train' | 99 442 |
- Structure des fonctionnalités :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
commencer | Tenseur | int32 | ||
difficile | Tenseur | bouffon | ||
continuation | FonctionnalitésDict | |||
continuation/flirt | Tenseur | flotteur32 | ||
continuation/identité_attaque | Tenseur | flotteur32 | ||
suite/insulte | Tenseur | flotteur32 | ||
suite/blasphème | Tenseur | flotteur32 | ||
continuation/toxicité_sévère | Tenseur | flotteur32 | ||
continuation/sexuellement_explicite | Tenseur | flotteur32 | ||
suite/texte | Texte | chaîne | ||
continuation/menace | Tenseur | flotteur32 | ||
continuation/toxicité | Tenseur | flotteur32 | ||
fin | Tenseur | int32 | ||
nom de fichier | Texte | chaîne | ||
rapide | FonctionnalitésDict | |||
invite/flirt | Tenseur | flotteur32 | ||
invite/identité_attaque | Tenseur | flotteur32 | ||
invite/insulte | Tenseur | flotteur32 | ||
invite/blasphème | Tenseur | flotteur32 | ||
invite/toxicité_sévère | Tenseur | flotteur32 | ||
prompt/sexuellement_explicite | Tenseur | flotteur32 | ||
invite/texte | Texte | chaîne | ||
invite/menace | Tenseur | flotteur32 | ||
invite/toxicité | Tenseur | flotteur32 |
Clés supervisées (Voir doc
as_supervised
) :None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ) :
- Citation :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}