- Descripción :
RealToxicityPrompts: Evaluación de la degeneración tóxica neuronal en modelos de lenguaje
RealToxicityPrompts es un corpus de indicaciones en inglés (específicamente comienzos de oraciones) de diversa toxicidad. Estas indicaciones deben brindarse como contextos para un modelo de lenguaje autorregresivo (es decir, GPT-2) y usarse para generar terminaciones.
Se presentan más detalles en el artículo original.
Página de inicio : https://github.com/allnai/real-toxicity-prompts
Código fuente :
tfds.datasets.real_toxicity_prompts.Builder
Versiones :
-
1.0.0
(predeterminado): versión inicial.
-
Tamaño de descarga :
3.46 GiB
Tamaño del conjunto de datos :
81.22 MiB
Almacenamiento en caché automático ( documentación ): Sí
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 99,442 |
- Estructura de características :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- Documentación de funciones :
Característica | Clase | Forma | tipo D | Descripción |
---|---|---|---|---|
FuncionesDict | ||||
comenzar | Tensor | int32 | ||
desafiante | Tensor | booleano | ||
continuación | FuncionesDict | |||
continuación/coqueteo | Tensor | flotador32 | ||
continuación/ataque_identidad | Tensor | flotador32 | ||
continuación/insulto | Tensor | flotador32 | ||
continuación/blasfemia | Tensor | flotador32 | ||
continuación/toxicidad_severa | Tensor | flotador32 | ||
continuación/sexualmente_explícito | Tensor | flotador32 | ||
continuación/texto | Texto | cadena | ||
continuación/amenaza | Tensor | flotador32 | ||
continuación/toxicidad | Tensor | flotador32 | ||
fin | Tensor | int32 | ||
Nombre del archivo | Texto | cadena | ||
inmediato | FuncionesDict | |||
incitación/coqueteo | Tensor | flotador32 | ||
aviso/identidad_ataque | Tensor | flotador32 | ||
aviso/insulto | Tensor | flotador32 | ||
pronto/blasfemia | Tensor | flotador32 | ||
pronto/toxicidad_severa | Tensor | flotador32 | ||
rápido/sexualmente_explícito | Tensor | flotador32 | ||
mensaje/texto | Texto | cadena | ||
aviso/amenaza | Tensor | flotador32 | ||
rápido/toxicidad | Tensor | flotador32 |
Claves supervisadas (ver documento
as_supervised
):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ): Falta.
Cita :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}