- Descrizione :
RealToxicityPrompts: valutazione della degenerazione tossica neurale nei modelli linguistici
RealToxicityPrompts è un corpus di suggerimenti in inglese (in particolare l'inizio delle frasi) di varia tossicità. Questi prompt devono essere forniti come contesto a un modello linguistico autoregressivo (ad esempio GPT-2) e utilizzati per generare completamenti.
Maggiori dettagli sono presentati nel documento originale.
Home page : https://github.com/allenai/real-tossicity-prompts
Codice sorgente :
tfds.datasets.real_toxicity_prompts.Builder
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensione download :
3.46 GiB
Dimensione del set di dati :
81.22 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :
Diviso | Esempi |
---|---|
'train' | 99.442 |
- Struttura delle caratteristiche :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
inizio | Tensore | int32 | ||
stimolante | Tensore | bool | ||
continuazione | CaratteristicheDict | |||
continuazione/flirt | Tensore | float32 | ||
continuazione/attacco_identità | Tensore | float32 | ||
continuazione/insulto | Tensore | float32 | ||
continuazione/volgarità | Tensore | float32 | ||
continuazione/tossicità_grave | Tensore | float32 | ||
continuazione/sessualmente_esplicito | Tensore | float32 | ||
continuazione/testo | Testo | corda | ||
continuazione/minaccia | Tensore | float32 | ||
continuazione/tossicità | Tensore | float32 | ||
FINE | Tensore | int32 | ||
nome del file | Testo | corda | ||
richiesta | CaratteristicheDict | |||
sollecitazione/flirt | Tensore | float32 | ||
prompt/attacco_identità | Tensore | float32 | ||
sollecitare/insultare | Tensore | float32 | ||
tempestivo/volgare | Tensore | float32 | ||
tossicità_pronta/grave | Tensore | float32 | ||
prompt/sessualmente_esplicito | Tensore | float32 | ||
suggerimento/testo | Testo | corda | ||
sollecitazione/minaccia | Tensore | float32 | ||
tempestività/tossicità | Tensore | float32 |
Chiavi supervisionate (vedi il documento
as_supervised
):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}