real_tossicity_prompts

Descrizione :

RealToxicityPrompts: valutazione della degenerazione tossica neurale nei modelli linguistici

RealToxicityPrompts è un corpus di suggerimenti in inglese (in particolare l'inizio delle frasi) di varia tossicità. Questi prompt devono essere forniti come contesto a un modello linguistico autoregressivo (ad esempio GPT-2) e utilizzati per generare completamenti.

Maggiori dettagli sono presentati nel documento originale.

Home page : https://github.com/allenai/real-tossicity-prompts
Codice sorgente : tfds.datasets.real_toxicity_prompts.Builder
Versioni :
- 1.0.0 (impostazione predefinita): versione iniziale.
Dimensione download : 3.46 GiB
Dimensione del set di dati : 81.22 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :

Diviso	Esempi
`'train'`	99.442

Struttura delle caratteristiche :

FeaturesDict({
    'begin': int32,
    'challenging': bool,
    'continuation': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
    'end': int32,
    'filename': Text(shape=(), dtype=string),
    'prompt': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Tipo D
	CaratteristicheDict
inizio	Tensore	int32
stimolante	Tensore	bool
continuazione	CaratteristicheDict
continuazione/flirt	Tensore	float32
continuazione/attacco_identità	Tensore	float32
continuazione/insulto	Tensore	float32
continuazione/volgarità	Tensore	float32
continuazione/tossicità_grave	Tensore	float32
continuazione/sessualmente_esplicito	Tensore	float32
continuazione/testo	Testo	corda
continuazione/minaccia	Tensore	float32
continuazione/tossicità	Tensore	float32
FINE	Tensore	int32
nome del file	Testo	corda
richiesta	CaratteristicheDict
sollecitazione/flirt	Tensore	float32
prompt/attacco_identità	Tensore	float32
sollecitare/insultare	Tensore	float32
tempestivo/volgare	Tensore	float32
tossicità_pronta/grave	Tensore	float32
prompt/sessualmente_esplicito	Tensore	float32
suggerimento/testo	Testo	corda
sollecitazione/minaccia	Tensore	float32
tempestività/tossicità	Tensore	float32

Chiavi supervisionate (vedi il documento as_supervised ): None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):

Citazione :

@article{gehman2020realtoxicityprompts,
  title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
  author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
  journal={arXiv preprint arXiv:2009.11462},
  year={2020}
}

real_tossicity_prompts Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

RealToxicityPrompts: valutazione della degenerazione tossica neurale nei modelli linguistici

real_tossicity_prompts