comentarios_civiles

  • Descripción :

Esta versión del conjunto de datos de CivilComments brinda acceso a las siete etiquetas principales que fueron anotadas por trabajadores de la multitud, la toxicidad y otras etiquetas son un valor entre 0 y 1 que indica la fracción de anotadores que asignaron estos atributos al texto del comentario.

Las otras etiquetas solo están disponibles para una fracción de los ejemplos de entrada. Actualmente se ignoran para el conjunto de datos principal; el conjunto CivilCommentsIdentities incluye esas etiquetas, pero solo consiste en el subconjunto de los datos con ellas. Los demás atributos que formaban parte de la versión original de CivilComments se incluyen solo en los datos sin procesar. Consulte la documentación de Kaggle para obtener más detalles sobre las funciones disponibles.

Los comentarios en este conjunto de datos provienen de un archivo de la plataforma Civil Comments, un complemento de comentarios para sitios de noticias independientes. Estos comentarios públicos se crearon entre 2015 y 2017 y aparecieron en aproximadamente 50 sitios de noticias en inglés en todo el mundo. Cuando Civil Comments cerró en 2017, optaron por hacer que los comentarios públicos estuvieran disponibles en un archivo abierto duradero para permitir futuras investigaciones. Los datos originales, publicados en figshare, incluyen el texto del comentario público, algunos metadatos asociados, como ID de artículo, ID de publicación, marcas de tiempo y etiquetas de "civismo" generadas por los comentaristas, pero no incluyen ID de usuario. Jigsaw amplió este conjunto de datos agregando etiquetas adicionales para toxicidad, menciones de identidad, así como ofensividad encubierta. Este conjunto de datos es una réplica exacta de los datos publicados para el desafío Jigsaw Unintended Bias in Toxicity Classification Kaggle. Este conjunto de datos se publica bajo CC0, al igual que el texto del comentario subyacente.

Para los comentarios que tienen un parent_id también en los datos de comentarios civiles, el texto del comentario anterior se proporciona como la función "parent_text". Tenga en cuenta que las divisiones se realizaron sin tener en cuenta esta información, por lo que el uso de comentarios anteriores puede filtrar alguna información. Los anotadores no tenían acceso al texto principal al hacer las etiquetas.

  • Página de inicio : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • Código fuente : tfds.text.CivilComments

  • Versiones :

    • 1.0.0 : versión completa inicial.
    • 1.0.1 : Se agregó una identificación única para cada comentario.
    • 1.1.0 : Se agregó la configuración de CivilCommentsCovert.
    • 1.1.1 : Se agregó la configuración de CivilCommentsCovert con la suma de verificación correcta.
    • 1.1.2 : Se agregó una cita separada para el conjunto de datos de CivilCommentsCovert.
    • 1.1.3 : Tipos de identificación corregidos de flotante a cadena.
    • 1.2.0 : agregue funciones de texto de comentarios primarios, contexto y intervalos tóxicos.
    • 1.2.1 : corrige el formato incorrecto en las divisiones de contexto.
    • 1.2.2 : Actualización para reflejar el contexto que solo tiene una división de tren.
    • 1.2.3 : Agregue una advertencia a CivilCommentsCovert mientras solucionamos un problema de datos.
    • 1.2.4 (predeterminado): agregue ID de publicación y marcas de tiempo de comentarios.
  • Tamaño de la descarga : 427.41 MiB

  • Figura ( tfds.show_examples ): no compatible.

civil_comments/CivilComments (configuración predeterminada)

  • Descripción de la configuración : el conjunto de CivilComments aquí incluye todos los datos, pero solo las siete etiquetas básicas (toxicidad, toxicidad grave, obsceno, amenaza, insulto, ataque de identidad y sexual_explícito).

  • Tamaño del conjunto de datos : 1.54 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 97,320
'train' 1,804,874
'validation' 97,320
  • Estructura de características :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
ID del artículo Tensor int32
Fecha de creación Tensor cadena
identificación Tensor cadena
ataque_de_identidad Tensor flotar32
insulto Tensor flotar32
obsceno Tensor flotar32
Identificación de los padres Tensor int32
texto_principal Texto cadena
publicación_id Tensor cadena
toxicidad_severa Tensor flotar32
sexual_explícito Tensor flotar32
texto Texto cadena
amenaza Tensor flotar32
toxicidad Tensor flotar32
  • Cita :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

comentarios_civiles/CivilCommentsIdentities

  • Descripción de la configuración : el conjunto CivilCommentsIdentities aquí incluye un conjunto ampliado de etiquetas de identidad además de las siete etiquetas básicas. Sin embargo, solo incluye el subconjunto (aproximadamente una cuarta parte) de los datos con todas estas características.

  • Tamaño del conjunto de datos : 654.97 MiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 21,577
'train' 405,130
'validation' 21,293
  • Estructura de características :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
ID del artículo Tensor int32
asiático Tensor flotar32
ateo Tensor flotar32
bisexual Tensor flotar32
negro Tensor flotar32
budista Tensor flotar32
cristiano Tensor flotar32
Fecha de creación Tensor cadena
femenino Tensor flotar32
heterosexual Tensor flotar32
hindú Tensor flotar32
homosexual_gay_o_lesbiana Tensor flotar32
identificación Tensor cadena
ataque_de_identidad Tensor flotar32
insulto Tensor flotar32
intelectual_o_discapacidad_de_aprendizaje Tensor flotar32
judío Tensor flotar32
latino Tensor flotar32
masculino Tensor flotar32
musulmán Tensor flotar32
obsceno Tensor flotar32
otra_discapacidad Tensor flotar32
otro_género Tensor flotar32
otra_raza_o_etnia Tensor flotar32
otra_religión Tensor flotar32
otra_orientación_sexual Tensor flotar32
Identificación de los padres Tensor int32
texto_principal Texto cadena
discapacidad física Tensor flotar32
enfermedad_psiquiatrica_o_mental Tensor flotar32
publicación_id Tensor cadena
toxicidad_severa Tensor flotar32
sexual_explícito Tensor flotar32
texto Texto cadena
amenaza Tensor flotar32
toxicidad Tensor flotar32
Transgénero Tensor flotar32
blanco Tensor flotar32
  • Cita :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

comentarios_civiles/ComentariosCivilesEncubiertos

  • Descripción de la configuración : ADVERTENCIA: hay un posible problema de calidad de datos con CivilCommentsCovert en el que estamos trabajando activamente para solucionarlo (28/06/22); los datos subyacentes pueden cambiar!

El conjunto CivilCommentsCovert es un subconjunto de CivilCommentsIdentities con ~20 % del tren y las divisiones de prueba más anotadas para ofensas encubiertas, además de las etiquetas de toxicidad e identidad. Se pidió a los evaluadores que clasificaran los comentarios como explícitamente, implícitamente, no, o no estoy seguro de si son ofensivos, así como si contenían diferentes tipos de ofensas encubiertas. El procedimiento de anotación completo se detalla en un documento próximo en https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • Tamaño del conjunto de datos : 97.83 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Dividir Ejemplos
'test' 2,455
'train' 48,074
  • Estructura de características :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
ID del artículo Tensor int32
asiático Tensor flotar32
ateo Tensor flotar32
bisexual Tensor flotar32
negro Tensor flotar32
budista Tensor flotar32
cristiano Tensor flotar32
emoticonos_encubiertos Tensor flotar32
humor_encubierto Tensor flotar32
daño_enmascarado_encubierto Tensor flotar32
microagresión_encubierta Tensor flotar32
ofuscación encubierta Tensor flotar32
político_encubierto Tensor flotar32
encubierto_sarcasmo Tensor flotar32
Fecha de creación Tensor cadena
explícitamente_ofensivo Tensor flotar32
femenino Tensor flotar32
heterosexual Tensor flotar32
hindú Tensor flotar32
homosexual_gay_o_lesbiana Tensor flotar32
identificación Tensor cadena
ataque_de_identidad Tensor flotar32
implícitamente_ofensiva Tensor flotar32
insulto Tensor flotar32
intelectual_o_discapacidad_de_aprendizaje Tensor flotar32
judío Tensor flotar32
latino Tensor flotar32
masculino Tensor flotar32
musulmán Tensor flotar32
no_ofensivo Tensor flotar32
no_seguro_ofensivo Tensor flotar32
obsceno Tensor flotar32
otra_discapacidad Tensor flotar32
otro_género Tensor flotar32
otra_raza_o_etnia Tensor flotar32
otra_religión Tensor flotar32
otra_orientación_sexual Tensor flotar32
Identificación de los padres Tensor int32
texto_principal Texto cadena
discapacidad física Tensor flotar32
enfermedad_psiquiatrica_o_mental Tensor flotar32
publicación_id Tensor cadena
toxicidad_severa Tensor flotar32
sexual_explícito Tensor flotar32
texto Texto cadena
amenaza Tensor flotar32
toxicidad Tensor flotar32
Transgénero Tensor flotar32
blanco Tensor flotar32
  • Cita :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

comentarios_civiles/CivilCommentsToxicSpans

  • Descripción de la configuración : los intervalos tóxicos de CivilComments son un subconjunto de CivilComments que está etiquetado en el nivel de intervalo: los índices de todos los límites de caracteres (puntos de código Unicode) que fueron etiquetados como tóxicos por la mayoría de los anotadores se devuelven en una característica de 'intervalos'.

  • Tamaño del conjunto de datos : 5.81 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Dividir Ejemplos
'test' 2,000
'train' 7,939
'validation' 682
  • Estructura de características :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
ID del artículo Tensor int32
Fecha de creación Tensor cadena
identificación Tensor cadena
Identificación de los padres Tensor int32
texto_principal Texto cadena
publicación_id Tensor cadena
se extiende Tensor (Ninguno,) int32
texto Texto cadena
  • Cita :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

comentarios_civiles/CivilCommentsInContext

  • Descripción de la configuración : CivilComments in Context es un subconjunto de CivilComments que se etiquetó poniendo a disposición de los etiquetadores el texto principal. Incluye una característica contextual_toxicity.

  • Tamaño del conjunto de datos : 9.63 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Dividir Ejemplos
'train' 9,969
  • Estructura de características :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
ID del artículo Tensor int32
toxicidad_contextual Tensor flotar32
Fecha de creación Tensor cadena
identificación Tensor cadena
ataque_de_identidad Tensor flotar32
insulto Tensor flotar32
obsceno Tensor flotar32
Identificación de los padres Tensor int32
texto_principal Texto cadena
publicación_id Tensor cadena
toxicidad_severa Tensor flotar32
sexual_explícito Tensor flotar32
texto Texto cadena
amenaza Tensor flotar32
toxicidad Tensor flotar32
  • Cita :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}