- Descrizione :
Questa versione del set di dati CivilComments fornisce l'accesso alle sette etichette principali che sono state annotate dai crowd worker, la tossicità e altri tag sono un valore compreso tra 0 e 1 che indica la frazione di annotatori che ha assegnato questi attributi al testo del commento.
Gli altri tag sono disponibili solo per una frazione degli esempi di input. Attualmente sono ignorati per il set di dati principale; il set CivilCommentsIdentities include tali etichette, ma consiste solo nel sottoinsieme dei dati con esse. Gli altri attributi che facevano parte della versione originale di CivilComments sono inclusi solo nei dati grezzi. Consulta la documentazione di Kaggle per maggiori dettagli sulle funzionalità disponibili.
I commenti in questo set di dati provengono da un archivio della piattaforma Civil Comments, un plug-in di commenti per siti di notizie indipendenti. Questi commenti pubblici sono stati creati tra il 2015 e il 2017 e sono apparsi su circa 50 siti di notizie in lingua inglese in tutto il mondo. Quando Civil Comments è stato chiuso nel 2017, hanno scelto di rendere disponibili i commenti pubblici in un archivio aperto duraturo per consentire ricerche future. I dati originali, pubblicati su figshare, includono il testo del commento pubblico, alcuni metadati associati come ID articolo, ID pubblicazione, timestamp ed etichette di "civiltà" generate dai commentatori, ma non includono ID utente. Jigsaw ha esteso questo set di dati aggiungendo etichette aggiuntive per tossicità, menzioni di identità e offensività nascosta. Questo set di dati è una replica esatta dei dati rilasciati per la sfida Jigsaw Unintended Bias in Toxicity Classification Kaggle. Questo set di dati è rilasciato sotto CC0, così come il testo del commento sottostante.
Per i commenti che hanno un parent_id anche nei dati dei commenti civili, il testo del commento precedente viene fornito come funzionalità "parent_text". Si noti che le divisioni sono state effettuate senza tener conto di queste informazioni, quindi l'utilizzo di commenti precedenti potrebbe far trapelare alcune informazioni. Gli annotatori non avevano accesso al testo principale durante la creazione delle etichette.
Homepage : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
Codice sorgente :
tfds.text.CivilComments
Versioni :
-
1.0.0
: Rilascio completo iniziale. -
1.0.1
: Aggiunto un ID univoco per ogni commento. -
1.1.0
: Aggiunta la configurazione CivilCommentsCovert. -
1.1.1
: Aggiunta la configurazione CivilCommentsCovert con checksum corretto. -
1.1.2
: Aggiunta citazione separata per il set di dati CivilCommentsCovert. -
1.1.3
: Tipi di id corretti da float a string. -
1.2.0
: Aggiunti elementi tossici, contesto e testo di commento principale. -
1.2.1
: correzione della formattazione errata nelle divisioni di contesto. -
1.2.2
: aggiornamento per riflettere il contesto con solo una divisione del treno. -
1.2.3
: Aggiungi avviso a CivilCommentsCovert mentre risolviamo un problema di dati. -
1.2.4
(predefinito): aggiungi ID di pubblicazione e timestamp dei commenti.
-
Dimensione del download :
427.41 MiB
Figura ( tfds.show_examples ): non supportato.
civil_comments/CivilComments (configurazione predefinita)
Descrizione della configurazione : i CivilComments impostati qui includono tutti i dati, ma solo le sette etichette di base (tossicità, tossicità_grave, osceno, minaccia, insulto, attacco_d'identità e sesso_esplicito).
Dimensione del set di dati :
1.54 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 97.320 |
'train' | 1.804.874 |
'validation' | 97.320 |
- Struttura delle caratteristiche :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
articolo_id | Tensore | int32 | ||
Data di Creazione | Tensore | corda | ||
id | Tensore | corda | ||
attacco_identità | Tensore | galleggiante32 | ||
insulto | Tensore | galleggiante32 | ||
osceno | Tensore | galleggiante32 | ||
parent_id | Tensore | int32 | ||
genitore_testo | Testo | corda | ||
pubblicazione_id | Tensore | corda | ||
grave_tossicità | Tensore | galleggiante32 | ||
sessuale_esplicito | Tensore | galleggiante32 | ||
testo | Testo | corda | ||
minaccia | Tensore | galleggiante32 | ||
tossicità | Tensore | galleggiante32 |
Chiavi supervisionate (Vedi
as_supervised
doc ):('text', 'toxicity')
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsIdentities
Descrizione della configurazione : il CivilCommentsIdentities impostato qui include un set esteso di etichette di identità oltre alle sette etichette di base. Tuttavia, include solo il sottoinsieme (circa un quarto) dei dati con tutte queste caratteristiche.
Dimensione del set di dati :
654.97 MiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'test' | 21.577 |
'train' | 405,130 |
'validation' | 21.293 |
- Struttura delle caratteristiche :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
articolo_id | Tensore | int32 | ||
asiatico | Tensore | galleggiante32 | ||
ateo | Tensore | galleggiante32 | ||
bisessuale | Tensore | galleggiante32 | ||
nero | Tensore | galleggiante32 | ||
buddista | Tensore | galleggiante32 | ||
cristiano | Tensore | galleggiante32 | ||
Data di Creazione | Tensore | corda | ||
femmina | Tensore | galleggiante32 | ||
eterosessuale | Tensore | galleggiante32 | ||
indù | Tensore | galleggiante32 | ||
omosessuale_gay_o_lesbica | Tensore | galleggiante32 | ||
id | Tensore | corda | ||
attacco_identità | Tensore | galleggiante32 | ||
insulto | Tensore | galleggiante32 | ||
disabilità_intellettuale_o_di_apprendimento | Tensore | galleggiante32 | ||
ebreo | Tensore | galleggiante32 | ||
latino | Tensore | galleggiante32 | ||
maschio | Tensore | galleggiante32 | ||
musulmano | Tensore | galleggiante32 | ||
osceno | Tensore | galleggiante32 | ||
altra_disabilità | Tensore | galleggiante32 | ||
altro_genere | Tensore | galleggiante32 | ||
altra_razza_o_etnia | Tensore | galleggiante32 | ||
altra_religione | Tensore | galleggiante32 | ||
altro_orientamento_sessuale | Tensore | galleggiante32 | ||
parent_id | Tensore | int32 | ||
genitore_testo | Testo | corda | ||
disabilità fisica | Tensore | galleggiante32 | ||
malattia_psichiatrica_o_mentale | Tensore | galleggiante32 | ||
pubblicazione_id | Tensore | corda | ||
grave_tossicità | Tensore | galleggiante32 | ||
sessuale_esplicito | Tensore | galleggiante32 | ||
testo | Testo | corda | ||
minaccia | Tensore | galleggiante32 | ||
tossicità | Tensore | galleggiante32 | ||
transgender | Tensore | galleggiante32 | ||
bianco | Tensore | galleggiante32 |
Chiavi supervisionate (Vedi
as_supervised
doc ):('text', 'toxicity')
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
civil_comments/CivilCommentsCovert
- Descrizione della configurazione : ATTENZIONE: c'è un potenziale problema di qualità dei dati con CivilCommentsCovert che stiamo lavorando attivamente per risolvere (06/28/22); i dati sottostanti potrebbero cambiare!
Il set CivilCommentsCovert è un sottoinsieme di CivilCommentsIdentities con circa il 20% del treno e delle divisioni di test ulteriormente annotate per offensività nascosta, oltre alle etichette di tossicità e identità. Ai valutatori è stato chiesto di classificare i commenti come esplicitamente, implicitamente, non o non sicuri se offensivi, nonché se contenevano diversi tipi di offensività nascosta. La procedura di annotazione completa è dettagliata in un documento di prossima pubblicazione all'indirizzo https://sites.google.com/corp/view/hciandnlp/accepted-papers
Dimensione del set di dati :
97.83 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.455 |
'train' | 48.074 |
- Struttura delle caratteristiche :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
articolo_id | Tensore | int32 | ||
asiatico | Tensore | galleggiante32 | ||
ateo | Tensore | galleggiante32 | ||
bisessuale | Tensore | galleggiante32 | ||
nero | Tensore | galleggiante32 | ||
buddista | Tensore | galleggiante32 | ||
cristiano | Tensore | galleggiante32 | ||
covert_emoticons_emojis | Tensore | galleggiante32 | ||
covert_humour | Tensore | galleggiante32 | ||
covert_masked_harm | Tensore | galleggiante32 | ||
covert_microaggression | Tensore | galleggiante32 | ||
covert_offuscamento | Tensore | galleggiante32 | ||
covert_political | Tensore | galleggiante32 | ||
covert_sarcasmo | Tensore | galleggiante32 | ||
Data di Creazione | Tensore | corda | ||
esplicitamente_offensivo | Tensore | galleggiante32 | ||
femmina | Tensore | galleggiante32 | ||
eterosessuale | Tensore | galleggiante32 | ||
indù | Tensore | galleggiante32 | ||
omosessuale_gay_o_lesbica | Tensore | galleggiante32 | ||
id | Tensore | corda | ||
attacco_identità | Tensore | galleggiante32 | ||
implicitamente_offensivo | Tensore | galleggiante32 | ||
insulto | Tensore | galleggiante32 | ||
disabilità_intellettuale_o_di_apprendimento | Tensore | galleggiante32 | ||
ebreo | Tensore | galleggiante32 | ||
latino | Tensore | galleggiante32 | ||
maschio | Tensore | galleggiante32 | ||
musulmano | Tensore | galleggiante32 | ||
non_offensivo | Tensore | galleggiante32 | ||
not_sure_offensive | Tensore | galleggiante32 | ||
osceno | Tensore | galleggiante32 | ||
altra_disabilità | Tensore | galleggiante32 | ||
altro_genere | Tensore | galleggiante32 | ||
altra_razza_o_etnia | Tensore | galleggiante32 | ||
altra_religione | Tensore | galleggiante32 | ||
altro_orientamento_sessuale | Tensore | galleggiante32 | ||
parent_id | Tensore | int32 | ||
genitore_testo | Testo | corda | ||
disabilità fisica | Tensore | galleggiante32 | ||
malattia_psichiatrica_o_mentale | Tensore | galleggiante32 | ||
pubblicazione_id | Tensore | corda | ||
grave_tossicità | Tensore | galleggiante32 | ||
sessuale_esplicito | Tensore | galleggiante32 | ||
testo | Testo | corda | ||
minaccia | Tensore | galleggiante32 | ||
tossicità | Tensore | galleggiante32 | ||
transgender | Tensore | galleggiante32 | ||
bianco | Tensore | galleggiante32 |
Chiavi supervisionate (Vedi
as_supervised
doc ):('text', 'toxicity')
Esempi ( tfds.as_dataframe ):
- Citazione :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
civil_comments/CivilCommentsToxicSpans
Descrizione della configurazione : i CivilComments Toxic Spans sono un sottoinsieme di CivilComments etichettato a livello di span: gli indici di tutti i limiti di carattere (codepoint Unicode) che sono stati contrassegnati come tossici dalla maggior parte degli annotatori vengono restituiti in una funzione "spans".
Dimensione del set di dati :
5.81 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.000 |
'train' | 7.939 |
'validation' | 682 |
- Struttura delle caratteristiche :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
articolo_id | Tensore | int32 | ||
Data di Creazione | Tensore | corda | ||
id | Tensore | corda | ||
parent_id | Tensore | int32 | ||
genitore_testo | Testo | corda | ||
pubblicazione_id | Tensore | corda | ||
campate | Tensore | (Nessuno,) | int32 | |
testo | Testo | corda |
Chiavi supervisionate (vedi
as_supervised
doc ):('text', 'spans')
Esempi ( tfds.as_dataframe ):
- Citazione :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
civil_comments/CivilCommentsInContext
Descrizione della configurazione : CivilComments in Context è un sottoinsieme di CivilComments che è stato etichettato mettendo a disposizione degli etichettatori parent_text. Include una funzione contextual_toxicity.
Dimensione del set di dati :
9.63 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 9.969 |
- Struttura delle caratteristiche :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
articolo_id | Tensore | int32 | ||
tossicità_contestuale | Tensore | galleggiante32 | ||
Data di Creazione | Tensore | corda | ||
id | Tensore | corda | ||
attacco_identità | Tensore | galleggiante32 | ||
insulto | Tensore | galleggiante32 | ||
osceno | Tensore | galleggiante32 | ||
parent_id | Tensore | int32 | ||
genitore_testo | Testo | corda | ||
pubblicazione_id | Tensore | corda | ||
grave_tossicità | Tensore | galleggiante32 | ||
sessuale_esplicito | Tensore | galleggiante32 | ||
testo | Testo | corda | ||
minaccia | Tensore | galleggiante32 | ||
tossicità | Tensore | galleggiante32 |
Chiavi supervisionate (Vedi
as_supervised
doc ):('text', 'toxicity')
Esempi ( tfds.as_dataframe ):
- Citazione :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}