- Descripción :
Esta versión del conjunto de datos de CivilComments brinda acceso a las siete etiquetas principales que fueron anotadas por trabajadores de la multitud, la toxicidad y otras etiquetas son un valor entre 0 y 1 que indica la fracción de anotadores que asignaron estos atributos al texto del comentario.
Las otras etiquetas solo están disponibles para una fracción de los ejemplos de entrada. Actualmente se ignoran para el conjunto de datos principal; el conjunto CivilCommentsIdentities incluye esas etiquetas, pero solo consiste en el subconjunto de los datos con ellas. Los demás atributos que formaban parte de la versión original de CivilComments se incluyen solo en los datos sin procesar. Consulte la documentación de Kaggle para obtener más detalles sobre las funciones disponibles.
Los comentarios en este conjunto de datos provienen de un archivo de la plataforma Civil Comments, un complemento de comentarios para sitios de noticias independientes. Estos comentarios públicos se crearon entre 2015 y 2017 y aparecieron en aproximadamente 50 sitios de noticias en inglés en todo el mundo. Cuando Civil Comments cerró en 2017, optaron por hacer que los comentarios públicos estuvieran disponibles en un archivo abierto duradero para permitir futuras investigaciones. Los datos originales, publicados en figshare, incluyen el texto del comentario público, algunos metadatos asociados, como ID de artículo, ID de publicación, marcas de tiempo y etiquetas de "civismo" generadas por los comentaristas, pero no incluyen ID de usuario. Jigsaw amplió este conjunto de datos agregando etiquetas adicionales para toxicidad, menciones de identidad, así como ofensividad encubierta. Este conjunto de datos es una réplica exacta de los datos publicados para el desafío Jigsaw Unintended Bias in Toxicity Classification Kaggle. Este conjunto de datos se publica bajo CC0, al igual que el texto del comentario subyacente.
Para los comentarios que tienen un parent_id también en los datos de comentarios civiles, el texto del comentario anterior se proporciona como la función "parent_text". Tenga en cuenta que las divisiones se realizaron sin tener en cuenta esta información, por lo que el uso de comentarios anteriores puede filtrar alguna información. Los anotadores no tenían acceso al texto principal al hacer las etiquetas.
Página de inicio : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
Código fuente :
tfds.text.CivilComments
Versiones :
-
1.0.0
: versión completa inicial. -
1.0.1
: Se agregó una identificación única para cada comentario. -
1.1.0
: Se agregó la configuración de CivilCommentsCovert. -
1.1.1
: Se agregó la configuración de CivilCommentsCovert con la suma de verificación correcta. -
1.1.2
: Se agregó una cita separada para el conjunto de datos de CivilCommentsCovert. -
1.1.3
: Tipos de identificación corregidos de flotante a cadena. -
1.2.0
: agregue funciones de texto de comentarios primarios, contexto y intervalos tóxicos. -
1.2.1
: corrige el formato incorrecto en las divisiones de contexto. -
1.2.2
: Actualización para reflejar el contexto que solo tiene una división de tren. -
1.2.3
: Agregue una advertencia a CivilCommentsCovert mientras solucionamos un problema de datos. -
1.2.4
(predeterminado): agregue ID de publicación y marcas de tiempo de comentarios.
-
Tamaño de la descarga :
427.41 MiB
Figura ( tfds.show_examples ): no compatible.
civil_comments/CivilComments (configuración predeterminada)
Descripción de la configuración : el conjunto de CivilComments aquí incluye todos los datos, pero solo las siete etiquetas básicas (toxicidad, toxicidad grave, obsceno, amenaza, insulto, ataque de identidad y sexual_explícito).
Tamaño del conjunto de datos :
1.54 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 97,320 |
'train' | 1,804,874 |
'validation' | 97,320 |
- Estructura de características :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Documentación de características :
Característica | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
ID del artículo | Tensor | int32 | ||
Fecha de creación | Tensor | cadena | ||
identificación | Tensor | cadena | ||
ataque_de_identidad | Tensor | flotar32 | ||
insulto | Tensor | flotar32 | ||
obsceno | Tensor | flotar32 | ||
Identificación de los padres | Tensor | int32 | ||
texto_principal | Texto | cadena | ||
publicación_id | Tensor | cadena | ||
toxicidad_severa | Tensor | flotar32 | ||
sexual_explícito | Tensor | flotar32 | ||
texto | Texto | cadena | ||
amenaza | Tensor | flotar32 | ||
toxicidad | Tensor | flotar32 |
Claves supervisadas (Ver como_documento
as_supervised
):('text', 'toxicity')
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
comentarios_civiles/CivilCommentsIdentities
Descripción de la configuración : el conjunto CivilCommentsIdentities aquí incluye un conjunto ampliado de etiquetas de identidad además de las siete etiquetas básicas. Sin embargo, solo incluye el subconjunto (aproximadamente una cuarta parte) de los datos con todas estas características.
Tamaño del conjunto de datos :
654.97 MiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 21,577 |
'train' | 405,130 |
'validation' | 21,293 |
- Estructura de características :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Documentación de características :
Característica | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
ID del artículo | Tensor | int32 | ||
asiático | Tensor | flotar32 | ||
ateo | Tensor | flotar32 | ||
bisexual | Tensor | flotar32 | ||
negro | Tensor | flotar32 | ||
budista | Tensor | flotar32 | ||
cristiano | Tensor | flotar32 | ||
Fecha de creación | Tensor | cadena | ||
femenino | Tensor | flotar32 | ||
heterosexual | Tensor | flotar32 | ||
hindú | Tensor | flotar32 | ||
homosexual_gay_o_lesbiana | Tensor | flotar32 | ||
identificación | Tensor | cadena | ||
ataque_de_identidad | Tensor | flotar32 | ||
insulto | Tensor | flotar32 | ||
intelectual_o_discapacidad_de_aprendizaje | Tensor | flotar32 | ||
judío | Tensor | flotar32 | ||
latino | Tensor | flotar32 | ||
masculino | Tensor | flotar32 | ||
musulmán | Tensor | flotar32 | ||
obsceno | Tensor | flotar32 | ||
otra_discapacidad | Tensor | flotar32 | ||
otro_género | Tensor | flotar32 | ||
otra_raza_o_etnia | Tensor | flotar32 | ||
otra_religión | Tensor | flotar32 | ||
otra_orientación_sexual | Tensor | flotar32 | ||
Identificación de los padres | Tensor | int32 | ||
texto_principal | Texto | cadena | ||
discapacidad física | Tensor | flotar32 | ||
enfermedad_psiquiatrica_o_mental | Tensor | flotar32 | ||
publicación_id | Tensor | cadena | ||
toxicidad_severa | Tensor | flotar32 | ||
sexual_explícito | Tensor | flotar32 | ||
texto | Texto | cadena | ||
amenaza | Tensor | flotar32 | ||
toxicidad | Tensor | flotar32 | ||
Transgénero | Tensor | flotar32 | ||
blanco | Tensor | flotar32 |
Claves supervisadas (Ver como_documento
as_supervised
):('text', 'toxicity')
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
comentarios_civiles/ComentariosCivilesEncubiertos
- Descripción de la configuración : ADVERTENCIA: hay un posible problema de calidad de datos con CivilCommentsCovert en el que estamos trabajando activamente para solucionarlo (28/06/22); los datos subyacentes pueden cambiar!
El conjunto CivilCommentsCovert es un subconjunto de CivilCommentsIdentities con ~20 % del tren y las divisiones de prueba más anotadas para ofensas encubiertas, además de las etiquetas de toxicidad e identidad. Se pidió a los evaluadores que clasificaran los comentarios como explícitamente, implícitamente, no, o no estoy seguro de si son ofensivos, así como si contenían diferentes tipos de ofensas encubiertas. El procedimiento de anotación completo se detalla en un documento próximo en https://sites.google.com/corp/view/hciandnlp/accepted-papers
Tamaño del conjunto de datos :
97.83 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 2,455 |
'train' | 48,074 |
- Estructura de características :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Documentación de características :
Característica | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
ID del artículo | Tensor | int32 | ||
asiático | Tensor | flotar32 | ||
ateo | Tensor | flotar32 | ||
bisexual | Tensor | flotar32 | ||
negro | Tensor | flotar32 | ||
budista | Tensor | flotar32 | ||
cristiano | Tensor | flotar32 | ||
emoticonos_encubiertos | Tensor | flotar32 | ||
humor_encubierto | Tensor | flotar32 | ||
daño_enmascarado_encubierto | Tensor | flotar32 | ||
microagresión_encubierta | Tensor | flotar32 | ||
ofuscación encubierta | Tensor | flotar32 | ||
político_encubierto | Tensor | flotar32 | ||
encubierto_sarcasmo | Tensor | flotar32 | ||
Fecha de creación | Tensor | cadena | ||
explícitamente_ofensivo | Tensor | flotar32 | ||
femenino | Tensor | flotar32 | ||
heterosexual | Tensor | flotar32 | ||
hindú | Tensor | flotar32 | ||
homosexual_gay_o_lesbiana | Tensor | flotar32 | ||
identificación | Tensor | cadena | ||
ataque_de_identidad | Tensor | flotar32 | ||
implícitamente_ofensiva | Tensor | flotar32 | ||
insulto | Tensor | flotar32 | ||
intelectual_o_discapacidad_de_aprendizaje | Tensor | flotar32 | ||
judío | Tensor | flotar32 | ||
latino | Tensor | flotar32 | ||
masculino | Tensor | flotar32 | ||
musulmán | Tensor | flotar32 | ||
no_ofensivo | Tensor | flotar32 | ||
no_seguro_ofensivo | Tensor | flotar32 | ||
obsceno | Tensor | flotar32 | ||
otra_discapacidad | Tensor | flotar32 | ||
otro_género | Tensor | flotar32 | ||
otra_raza_o_etnia | Tensor | flotar32 | ||
otra_religión | Tensor | flotar32 | ||
otra_orientación_sexual | Tensor | flotar32 | ||
Identificación de los padres | Tensor | int32 | ||
texto_principal | Texto | cadena | ||
discapacidad física | Tensor | flotar32 | ||
enfermedad_psiquiatrica_o_mental | Tensor | flotar32 | ||
publicación_id | Tensor | cadena | ||
toxicidad_severa | Tensor | flotar32 | ||
sexual_explícito | Tensor | flotar32 | ||
texto | Texto | cadena | ||
amenaza | Tensor | flotar32 | ||
toxicidad | Tensor | flotar32 | ||
Transgénero | Tensor | flotar32 | ||
blanco | Tensor | flotar32 |
Claves supervisadas (Ver como_documento
as_supervised
):('text', 'toxicity')
Ejemplos ( tfds.as_dataframe ):
- Cita :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
comentarios_civiles/CivilCommentsToxicSpans
Descripción de la configuración : los intervalos tóxicos de CivilComments son un subconjunto de CivilComments que está etiquetado en el nivel de intervalo: los índices de todos los límites de caracteres (puntos de código Unicode) que fueron etiquetados como tóxicos por la mayoría de los anotadores se devuelven en una característica de 'intervalos'.
Tamaño del conjunto de datos :
5.81 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Dividir | Ejemplos |
---|---|
'test' | 2,000 |
'train' | 7,939 |
'validation' | 682 |
- Estructura de características :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- Documentación de características :
Característica | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
ID del artículo | Tensor | int32 | ||
Fecha de creación | Tensor | cadena | ||
identificación | Tensor | cadena | ||
Identificación de los padres | Tensor | int32 | ||
texto_principal | Texto | cadena | ||
publicación_id | Tensor | cadena | ||
se extiende | Tensor | (Ninguno,) | int32 | |
texto | Texto | cadena |
Claves supervisadas (ver
as_supervised
doc ):('text', 'spans')
Ejemplos ( tfds.as_dataframe ):
- Cita :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
comentarios_civiles/CivilCommentsInContext
Descripción de la configuración : CivilComments in Context es un subconjunto de CivilComments que se etiquetó poniendo a disposición de los etiquetadores el texto principal. Incluye una característica contextual_toxicity.
Tamaño del conjunto de datos :
9.63 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Dividir | Ejemplos |
---|---|
'train' | 9,969 |
- Estructura de características :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Documentación de características :
Característica | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
ID del artículo | Tensor | int32 | ||
toxicidad_contextual | Tensor | flotar32 | ||
Fecha de creación | Tensor | cadena | ||
identificación | Tensor | cadena | ||
ataque_de_identidad | Tensor | flotar32 | ||
insulto | Tensor | flotar32 | ||
obsceno | Tensor | flotar32 | ||
Identificación de los padres | Tensor | int32 | ||
texto_principal | Texto | cadena | ||
publicación_id | Tensor | cadena | ||
toxicidad_severa | Tensor | flotar32 | ||
sexual_explícito | Tensor | flotar32 | ||
texto | Texto | cadena | ||
amenaza | Tensor | flotar32 | ||
toxicidad | Tensor | flotar32 |
Claves supervisadas (Ver como_documento
as_supervised
):('text', 'toxicity')
Ejemplos ( tfds.as_dataframe ):
- Cita :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}