commentaires_civils

  • Descriptif :

Cette version de l'ensemble de données CivilComments donne accès aux sept principales étiquettes qui ont été annotées par les crowd workers, la toxicité et les autres étiquettes sont une valeur comprise entre 0 et 1 indiquant la fraction d'annotateurs qui ont attribué ces attributs au texte du commentaire.

Les autres balises ne sont disponibles que pour une fraction des exemples d'entrée. Ils sont actuellement ignorés pour le jeu de données principal ; l'ensemble CivilCommentsIdentities inclut ces étiquettes, mais se compose uniquement du sous-ensemble des données avec elles. Les autres attributs qui faisaient partie de la version originale de CivilComments sont inclus uniquement dans les données brutes. Consultez la documentation de Kaggle pour plus de détails sur les fonctionnalités disponibles.

Les commentaires de cet ensemble de données proviennent d'une archive de la plateforme Civil Comments, un plugin de commentaires pour les sites d'actualités indépendants. Ces commentaires publics ont été créés de 2015 à 2017 et sont apparus sur environ 50 sites d'information en anglais à travers le monde. Lorsque Civil Comments a fermé ses portes en 2017, ils ont choisi de rendre les commentaires publics disponibles dans une archive ouverte durable pour permettre de futures recherches. Les données originales, publiées sur figshare, incluent le texte des commentaires publics, certaines métadonnées associées telles que les identifiants d'article, les identifiants de publication, les horodatages et les étiquettes de "civilité" générées par les commentateurs, mais n'incluent pas les identifiants d'utilisateur. Jigsaw a étendu cet ensemble de données en ajoutant des étiquettes supplémentaires pour la toxicité, les mentions d'identité, ainsi que le caractère offensant caché. Cet ensemble de données est une réplique exacte des données publiées pour le défi Kaggle Jigsaw Unintended Bias in Toxicity Classification. Cet ensemble de données est publié sous CC0, tout comme le texte de commentaire sous-jacent.

Pour les commentaires qui ont un parent_id également dans les données des commentaires civils, le texte du commentaire précédent est fourni en tant que fonctionnalité "parent_text". Notez que les divisions ont été faites sans tenir compte de ces informations, donc l'utilisation des commentaires précédents peut entraîner la fuite de certaines informations. Les annotateurs n'avaient pas accès au texte parent lors de la création des étiquettes.

  • Page d'accueil : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • Code source : tfds.text.CivilComments

  • Versions :

    • 1.0.0 : version complète initiale.
    • 1.0.1 : Ajout d'un identifiant unique pour chaque commentaire.
    • 1.1.0 : Ajout de la configuration de CivilCommentsCovert.
    • 1.1.1 : Ajout de la configuration CivilCommentsCovert avec la somme de contrôle correcte.
    • 1.1.2 : Ajout d'une citation séparée pour l'ensemble de données CivilCommentsCovert.
    • 1.1.3 : Correction des types d'id de float à string.
    • 1.2.0 : Ajouter des fonctionnalités de portée toxique, de contexte et de texte de commentaire parent.
    • 1.2.1 : Correction d'un formatage incorrect dans les divisions de contexte.
    • 1.2.2 : Mise à jour pour refléter uniquement le contexte ayant une division de train.
    • 1.2.3 : Ajout d'un avertissement à CivilCommentsCovert car nous corrigeons un problème de données.
    • 1.2.4 (par défaut) : ajouter des identifiants de publication et des horodatages de commentaires.
  • Taille du téléchargement : 427.41 MiB

  • Figure ( tfds.show_examples ) : non pris en charge.

civil_comments/CivilComments (configuration par défaut)

  • Description de la configuration : L'ensemble CivilComments ici comprend toutes les données, mais seulement les sept étiquettes de base (toxicité, sévère_toxicité, obscène, menace, insulte, identité_attaque et sexual_explicit).

  • Taille du jeu de données : 1.54 GiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 97 320
'train' 1 804 874
'validation' 97 320
  • Structure des fonctionnalités :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
article_id Tenseur int32
date_de_création Tenseur chaîne
identifiant Tenseur chaîne
attaque_d'identité Tenseur float32
insulte Tenseur float32
obscène Tenseur float32
id_parent Tenseur int32
parent_text Texte chaîne
id_publication Tenseur chaîne
toxicité_sévère Tenseur float32
sexuelle_explicite Tenseur float32
texte Texte chaîne
menace Tenseur float32
toxicité Tenseur float32
  • Citation :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

commentaires_civils/CivilCommentsIdentities

  • Description de la configuration : L'ensemble CivilCommentsIdentities comprend ici un ensemble étendu d'étiquettes d'identité en plus des sept étiquettes de base. Cependant, il n'inclut que le sous-ensemble (environ un quart) des données avec toutes ces caractéristiques.

  • Taille du jeu de données : 654.97 MiB

  • Mise en cache automatique ( documentation ): Non

  • Fractionnements :

Diviser Exemples
'test' 21 577
'train' 405 130
'validation' 21 293
  • Structure des fonctionnalités :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
article_id Tenseur int32
asiatique Tenseur float32
athée Tenseur float32
bisexuel Tenseur float32
noir Tenseur float32
bouddhiste Tenseur float32
Christian Tenseur float32
date_de_création Tenseur chaîne
femme Tenseur float32
hétérosexuel Tenseur float32
hindou Tenseur float32
homosexuel_gay_ou_lesbien Tenseur float32
identifiant Tenseur chaîne
attaque_d'identité Tenseur float32
insulte Tenseur float32
handicap_intellectuel_ou_d'apprentissage Tenseur float32
juif Tenseur float32
latino Tenseur float32
homme Tenseur float32
musulman Tenseur float32
obscène Tenseur float32
autre_handicap Tenseur float32
autre_genre Tenseur float32
autre_race_ou_ethnicité Tenseur float32
autre_religion Tenseur float32
autre_orientation_sexuelle Tenseur float32
id_parent Tenseur int32
parent_text Texte chaîne
handicap physique Tenseur float32
maladie_psychiatrique_ou_mentale Tenseur float32
id_publication Tenseur chaîne
toxicité_sévère Tenseur float32
sexuelle_explicite Tenseur float32
texte Texte chaîne
menace Tenseur float32
toxicité Tenseur float32
transgenres Tenseur float32
blanc Tenseur float32
  • Citation :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

commentaires_civils/CivilCommentsCovert

  • Description de la configuration : AVERTISSEMENT : il existe un problème potentiel de qualité des données avec CivilCommentsCovert que nous travaillons activement à résoudre (28/06/22) ; les données sous-jacentes peuvent changer !

L'ensemble CivilCommentsCovert est un sous-ensemble de CivilCommentsIdentities avec environ 20 % des fractionnements de train et de test annotés davantage pour l'offensivité secrète, en plus des étiquettes de toxicité et d'identité. Les évaluateurs ont été invités à classer les commentaires comme étant explicitement, implicitement, non offensants ou incertains, ainsi qu'à indiquer s'ils contenaient différents types d'offenses secrètes. La procédure d'annotation complète est détaillée dans un article à paraître sur https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • Taille du jeu de données : 97.83 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 2 455
'train' 48 074
  • Structure des fonctionnalités :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
article_id Tenseur int32
asiatique Tenseur float32
athée Tenseur float32
bisexuel Tenseur float32
noir Tenseur float32
bouddhiste Tenseur float32
Christian Tenseur float32
covert_emoticons_emojis Tenseur float32
humour_secret Tenseur float32
covert_masked_harm Tenseur float32
secret_microagression Tenseur float32
secret_obfuscation Tenseur float32
secret_politique Tenseur float32
sarcasme_secret Tenseur float32
date_de_création Tenseur chaîne
explicitement_offensant Tenseur float32
femme Tenseur float32
hétérosexuel Tenseur float32
hindou Tenseur float32
homosexuel_gay_ou_lesbien Tenseur float32
identifiant Tenseur chaîne
attaque_d'identité Tenseur float32
implicitement_offensant Tenseur float32
insulte Tenseur float32
handicap_intellectuel_ou_d'apprentissage Tenseur float32
juif Tenseur float32
latino Tenseur float32
homme Tenseur float32
musulman Tenseur float32
pas_offensant Tenseur float32
pas_sûr_offensant Tenseur float32
obscène Tenseur float32
autre_handicap Tenseur float32
autre_genre Tenseur float32
autre_race_ou_ethnicité Tenseur float32
autre_religion Tenseur float32
autre_orientation_sexuelle Tenseur float32
id_parent Tenseur int32
parent_text Texte chaîne
handicap physique Tenseur float32
maladie_psychiatrique_ou_mentale Tenseur float32
id_publication Tenseur chaîne
toxicité_sévère Tenseur float32
sexuelle_explicite Tenseur float32
texte Texte chaîne
menace Tenseur float32
toxicité Tenseur float32
transgenres Tenseur float32
blanc Tenseur float32
  • Citation :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

commentaires_civils/CivilCommentsToxicSpans

  • Description de la configuration : Les CivilComments Toxic Spans sont un sous-ensemble de CivilComments qui est étiqueté au niveau de la portée - les indices de toutes les limites de caractères (points de code Unicode) qui ont été marqués comme toxiques par la majorité des annotateurs sont renvoyés dans une fonction "spans".

  • Taille du jeu de données : 5.81 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 2 000
'train' 7 939
'validation' 682
  • Structure des fonctionnalités :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
article_id Tenseur int32
date_de_création Tenseur chaîne
identifiant Tenseur chaîne
id_parent Tenseur int32
parent_text Texte chaîne
id_publication Tenseur chaîne
s'étend Tenseur (Aucun,) int32
texte Texte chaîne
  • Citation :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

commentaires_civils/CivilCommentsInContext

  • Description de la configuration : Les CivilComments en contexte sont un sous-ensemble de CivilComments qui a été étiqueté en mettant à la disposition des étiqueteurs le parent_text. Il inclut une fonction contextual_toxicity.

  • Taille du jeu de données : 9.63 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 9 969
  • Structure des fonctionnalités :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
article_id Tenseur int32
contextual_toxicity Tenseur float32
date_de_création Tenseur chaîne
identifiant Tenseur chaîne
attaque_d'identité Tenseur float32
insulte Tenseur float32
obscène Tenseur float32
id_parent Tenseur int32
parent_text Texte chaîne
id_publication Tenseur chaîne
toxicité_sévère Tenseur float32
sexuelle_explicite Tenseur float32
texte Texte chaîne
menace Tenseur float32
toxicité Tenseur float32
  • Citation :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}