- Descriptif :
Cette version de l'ensemble de données CivilComments donne accès aux sept principales étiquettes qui ont été annotées par les crowd workers, la toxicité et les autres étiquettes sont une valeur comprise entre 0 et 1 indiquant la fraction d'annotateurs qui ont attribué ces attributs au texte du commentaire.
Les autres balises ne sont disponibles que pour une fraction des exemples d'entrée. Ils sont actuellement ignorés pour le jeu de données principal ; l'ensemble CivilCommentsIdentities inclut ces étiquettes, mais se compose uniquement du sous-ensemble des données avec elles. Les autres attributs qui faisaient partie de la version originale de CivilComments sont inclus uniquement dans les données brutes. Consultez la documentation de Kaggle pour plus de détails sur les fonctionnalités disponibles.
Les commentaires de cet ensemble de données proviennent d'une archive de la plateforme Civil Comments, un plugin de commentaires pour les sites d'actualités indépendants. Ces commentaires publics ont été créés de 2015 à 2017 et sont apparus sur environ 50 sites d'information en anglais à travers le monde. Lorsque Civil Comments a fermé ses portes en 2017, ils ont choisi de rendre les commentaires publics disponibles dans une archive ouverte durable pour permettre de futures recherches. Les données originales, publiées sur figshare, incluent le texte des commentaires publics, certaines métadonnées associées telles que les identifiants d'article, les identifiants de publication, les horodatages et les étiquettes de "civilité" générées par les commentateurs, mais n'incluent pas les identifiants d'utilisateur. Jigsaw a étendu cet ensemble de données en ajoutant des étiquettes supplémentaires pour la toxicité, les mentions d'identité, ainsi que le caractère offensant caché. Cet ensemble de données est une réplique exacte des données publiées pour le défi Kaggle Jigsaw Unintended Bias in Toxicity Classification. Cet ensemble de données est publié sous CC0, tout comme le texte de commentaire sous-jacent.
Pour les commentaires qui ont un parent_id également dans les données des commentaires civils, le texte du commentaire précédent est fourni en tant que fonctionnalité "parent_text". Notez que les divisions ont été faites sans tenir compte de ces informations, donc l'utilisation des commentaires précédents peut entraîner la fuite de certaines informations. Les annotateurs n'avaient pas accès au texte parent lors de la création des étiquettes.
Page d'accueil : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
Code source :
tfds.text.CivilComments
Versions :
-
1.0.0
: version complète initiale. -
1.0.1
: Ajout d'un identifiant unique pour chaque commentaire. -
1.1.0
: Ajout de la configuration de CivilCommentsCovert. -
1.1.1
: Ajout de la configuration CivilCommentsCovert avec la somme de contrôle correcte. -
1.1.2
: Ajout d'une citation séparée pour l'ensemble de données CivilCommentsCovert. -
1.1.3
: Correction des types d'id de float à string. -
1.2.0
: Ajouter des fonctionnalités de portée toxique, de contexte et de texte de commentaire parent. -
1.2.1
: Correction d'un formatage incorrect dans les divisions de contexte. -
1.2.2
: Mise à jour pour refléter uniquement le contexte ayant une division de train. -
1.2.3
: Ajout d'un avertissement à CivilCommentsCovert car nous corrigeons un problème de données. -
1.2.4
(par défaut) : ajouter des identifiants de publication et des horodatages de commentaires.
-
Taille du téléchargement :
427.41 MiB
Figure ( tfds.show_examples ) : non pris en charge.
civil_comments/CivilComments (configuration par défaut)
Description de la configuration : L'ensemble CivilComments ici comprend toutes les données, mais seulement les sept étiquettes de base (toxicité, sévère_toxicité, obscène, menace, insulte, identité_attaque et sexual_explicit).
Taille du jeu de données :
1.54 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 97 320 |
'train' | 1 804 874 |
'validation' | 97 320 |
- Structure des fonctionnalités :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
article_id | Tenseur | int32 | ||
date_de_création | Tenseur | chaîne | ||
identifiant | Tenseur | chaîne | ||
attaque_d'identité | Tenseur | float32 | ||
insulte | Tenseur | float32 | ||
obscène | Tenseur | float32 | ||
id_parent | Tenseur | int32 | ||
parent_text | Texte | chaîne | ||
id_publication | Tenseur | chaîne | ||
toxicité_sévère | Tenseur | float32 | ||
sexuelle_explicite | Tenseur | float32 | ||
texte | Texte | chaîne | ||
menace | Tenseur | float32 | ||
toxicité | Tenseur | float32 |
Clés supervisées (Voir
as_supervised
doc ):('text', 'toxicity')
Exemples ( tfds.as_dataframe ):
- Citation :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
commentaires_civils/CivilCommentsIdentities
Description de la configuration : L'ensemble CivilCommentsIdentities comprend ici un ensemble étendu d'étiquettes d'identité en plus des sept étiquettes de base. Cependant, il n'inclut que le sous-ensemble (environ un quart) des données avec toutes ces caractéristiques.
Taille du jeu de données :
654.97 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 21 577 |
'train' | 405 130 |
'validation' | 21 293 |
- Structure des fonctionnalités :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
article_id | Tenseur | int32 | ||
asiatique | Tenseur | float32 | ||
athée | Tenseur | float32 | ||
bisexuel | Tenseur | float32 | ||
noir | Tenseur | float32 | ||
bouddhiste | Tenseur | float32 | ||
Christian | Tenseur | float32 | ||
date_de_création | Tenseur | chaîne | ||
femme | Tenseur | float32 | ||
hétérosexuel | Tenseur | float32 | ||
hindou | Tenseur | float32 | ||
homosexuel_gay_ou_lesbien | Tenseur | float32 | ||
identifiant | Tenseur | chaîne | ||
attaque_d'identité | Tenseur | float32 | ||
insulte | Tenseur | float32 | ||
handicap_intellectuel_ou_d'apprentissage | Tenseur | float32 | ||
juif | Tenseur | float32 | ||
latino | Tenseur | float32 | ||
homme | Tenseur | float32 | ||
musulman | Tenseur | float32 | ||
obscène | Tenseur | float32 | ||
autre_handicap | Tenseur | float32 | ||
autre_genre | Tenseur | float32 | ||
autre_race_ou_ethnicité | Tenseur | float32 | ||
autre_religion | Tenseur | float32 | ||
autre_orientation_sexuelle | Tenseur | float32 | ||
id_parent | Tenseur | int32 | ||
parent_text | Texte | chaîne | ||
handicap physique | Tenseur | float32 | ||
maladie_psychiatrique_ou_mentale | Tenseur | float32 | ||
id_publication | Tenseur | chaîne | ||
toxicité_sévère | Tenseur | float32 | ||
sexuelle_explicite | Tenseur | float32 | ||
texte | Texte | chaîne | ||
menace | Tenseur | float32 | ||
toxicité | Tenseur | float32 | ||
transgenres | Tenseur | float32 | ||
blanc | Tenseur | float32 |
Clés supervisées (Voir
as_supervised
doc ):('text', 'toxicity')
Exemples ( tfds.as_dataframe ):
- Citation :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
commentaires_civils/CivilCommentsCovert
- Description de la configuration : AVERTISSEMENT : il existe un problème potentiel de qualité des données avec CivilCommentsCovert que nous travaillons activement à résoudre (28/06/22) ; les données sous-jacentes peuvent changer !
L'ensemble CivilCommentsCovert est un sous-ensemble de CivilCommentsIdentities avec environ 20 % des fractionnements de train et de test annotés davantage pour l'offensivité secrète, en plus des étiquettes de toxicité et d'identité. Les évaluateurs ont été invités à classer les commentaires comme étant explicitement, implicitement, non offensants ou incertains, ainsi qu'à indiquer s'ils contenaient différents types d'offenses secrètes. La procédure d'annotation complète est détaillée dans un article à paraître sur https://sites.google.com/corp/view/hciandnlp/accepted-papers
Taille du jeu de données :
97.83 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 455 |
'train' | 48 074 |
- Structure des fonctionnalités :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
article_id | Tenseur | int32 | ||
asiatique | Tenseur | float32 | ||
athée | Tenseur | float32 | ||
bisexuel | Tenseur | float32 | ||
noir | Tenseur | float32 | ||
bouddhiste | Tenseur | float32 | ||
Christian | Tenseur | float32 | ||
covert_emoticons_emojis | Tenseur | float32 | ||
humour_secret | Tenseur | float32 | ||
covert_masked_harm | Tenseur | float32 | ||
secret_microagression | Tenseur | float32 | ||
secret_obfuscation | Tenseur | float32 | ||
secret_politique | Tenseur | float32 | ||
sarcasme_secret | Tenseur | float32 | ||
date_de_création | Tenseur | chaîne | ||
explicitement_offensant | Tenseur | float32 | ||
femme | Tenseur | float32 | ||
hétérosexuel | Tenseur | float32 | ||
hindou | Tenseur | float32 | ||
homosexuel_gay_ou_lesbien | Tenseur | float32 | ||
identifiant | Tenseur | chaîne | ||
attaque_d'identité | Tenseur | float32 | ||
implicitement_offensant | Tenseur | float32 | ||
insulte | Tenseur | float32 | ||
handicap_intellectuel_ou_d'apprentissage | Tenseur | float32 | ||
juif | Tenseur | float32 | ||
latino | Tenseur | float32 | ||
homme | Tenseur | float32 | ||
musulman | Tenseur | float32 | ||
pas_offensant | Tenseur | float32 | ||
pas_sûr_offensant | Tenseur | float32 | ||
obscène | Tenseur | float32 | ||
autre_handicap | Tenseur | float32 | ||
autre_genre | Tenseur | float32 | ||
autre_race_ou_ethnicité | Tenseur | float32 | ||
autre_religion | Tenseur | float32 | ||
autre_orientation_sexuelle | Tenseur | float32 | ||
id_parent | Tenseur | int32 | ||
parent_text | Texte | chaîne | ||
handicap physique | Tenseur | float32 | ||
maladie_psychiatrique_ou_mentale | Tenseur | float32 | ||
id_publication | Tenseur | chaîne | ||
toxicité_sévère | Tenseur | float32 | ||
sexuelle_explicite | Tenseur | float32 | ||
texte | Texte | chaîne | ||
menace | Tenseur | float32 | ||
toxicité | Tenseur | float32 | ||
transgenres | Tenseur | float32 | ||
blanc | Tenseur | float32 |
Clés supervisées (Voir
as_supervised
doc ):('text', 'toxicity')
Exemples ( tfds.as_dataframe ):
- Citation :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
commentaires_civils/CivilCommentsToxicSpans
Description de la configuration : Les CivilComments Toxic Spans sont un sous-ensemble de CivilComments qui est étiqueté au niveau de la portée - les indices de toutes les limites de caractères (points de code Unicode) qui ont été marqués comme toxiques par la majorité des annotateurs sont renvoyés dans une fonction "spans".
Taille du jeu de données :
5.81 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 000 |
'train' | 7 939 |
'validation' | 682 |
- Structure des fonctionnalités :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
article_id | Tenseur | int32 | ||
date_de_création | Tenseur | chaîne | ||
identifiant | Tenseur | chaîne | ||
id_parent | Tenseur | int32 | ||
parent_text | Texte | chaîne | ||
id_publication | Tenseur | chaîne | ||
s'étend | Tenseur | (Aucun,) | int32 | |
texte | Texte | chaîne |
Clés supervisées (Voir
as_supervised
doc ):('text', 'spans')
Exemples ( tfds.as_dataframe ):
- Citation :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
commentaires_civils/CivilCommentsInContext
Description de la configuration : Les CivilComments en contexte sont un sous-ensemble de CivilComments qui a été étiqueté en mettant à la disposition des étiqueteurs le parent_text. Il inclut une fonction contextual_toxicity.
Taille du jeu de données :
9.63 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 9 969 |
- Structure des fonctionnalités :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
article_id | Tenseur | int32 | ||
contextual_toxicity | Tenseur | float32 | ||
date_de_création | Tenseur | chaîne | ||
identifiant | Tenseur | chaîne | ||
attaque_d'identité | Tenseur | float32 | ||
insulte | Tenseur | float32 | ||
obscène | Tenseur | float32 | ||
id_parent | Tenseur | int32 | ||
parent_text | Texte | chaîne | ||
id_publication | Tenseur | chaîne | ||
toxicité_sévère | Tenseur | float32 | ||
sexuelle_explicite | Tenseur | float32 | ||
texte | Texte | chaîne | ||
menace | Tenseur | float32 | ||
toxicité | Tenseur | float32 |
Clés supervisées (Voir
as_supervised
doc ):('text', 'toxicity')
Exemples ( tfds.as_dataframe ):
- Citation :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}