commenti_civili

  • Descrizione :

Questa versione del set di dati CivilComments fornisce l'accesso alle sette etichette principali che sono state annotate dai crowd worker, la tossicità e altri tag sono un valore compreso tra 0 e 1 che indica la frazione di annotatori che ha assegnato questi attributi al testo del commento.

Gli altri tag sono disponibili solo per una frazione degli esempi di input. Attualmente sono ignorati per il set di dati principale; il set CivilCommentsIdentities include tali etichette, ma consiste solo nel sottoinsieme dei dati con esse. Gli altri attributi che facevano parte della versione originale di CivilComments sono inclusi solo nei dati grezzi. Consulta la documentazione di Kaggle per maggiori dettagli sulle funzionalità disponibili.

I commenti in questo set di dati provengono da un archivio della piattaforma Civil Comments, un plug-in di commenti per siti di notizie indipendenti. Questi commenti pubblici sono stati creati tra il 2015 e il 2017 e sono apparsi su circa 50 siti di notizie in lingua inglese in tutto il mondo. Quando Civil Comments è stato chiuso nel 2017, hanno scelto di rendere disponibili i commenti pubblici in un archivio aperto duraturo per consentire ricerche future. I dati originali, pubblicati su figshare, includono il testo del commento pubblico, alcuni metadati associati come ID articolo, ID pubblicazione, timestamp ed etichette di "civiltà" generate dai commentatori, ma non includono ID utente. Jigsaw ha esteso questo set di dati aggiungendo etichette aggiuntive per tossicità, menzioni di identità e offensività nascosta. Questo set di dati è una replica esatta dei dati rilasciati per la sfida Jigsaw Unintended Bias in Toxicity Classification Kaggle. Questo set di dati è rilasciato sotto CC0, così come il testo del commento sottostante.

Per i commenti che hanno un parent_id anche nei dati dei commenti civili, il testo del commento precedente viene fornito come funzionalità "parent_text". Si noti che le divisioni sono state effettuate senza tener conto di queste informazioni, quindi l'utilizzo di commenti precedenti potrebbe far trapelare alcune informazioni. Gli annotatori non avevano accesso al testo principale durante la creazione delle etichette.

  • Homepage : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • Codice sorgente : tfds.text.CivilComments

  • Versioni :

    • 1.0.0 : Rilascio completo iniziale.
    • 1.0.1 : Aggiunto un ID univoco per ogni commento.
    • 1.1.0 : Aggiunta la configurazione CivilCommentsCovert.
    • 1.1.1 : Aggiunta la configurazione CivilCommentsCovert con checksum corretto.
    • 1.1.2 : Aggiunta citazione separata per il set di dati CivilCommentsCovert.
    • 1.1.3 : Tipi di id corretti da float a string.
    • 1.2.0 : Aggiunti elementi tossici, contesto e testo di commento principale.
    • 1.2.1 : correzione della formattazione errata nelle divisioni di contesto.
    • 1.2.2 : aggiornamento per riflettere il contesto con solo una divisione del treno.
    • 1.2.3 : Aggiungi avviso a CivilCommentsCovert mentre risolviamo un problema di dati.
    • 1.2.4 (predefinito): aggiungi ID di pubblicazione e timestamp dei commenti.
  • Dimensione del download : 427.41 MiB

  • Figura ( tfds.show_examples ): non supportato.

civil_comments/CivilComments (configurazione predefinita)

  • Descrizione della configurazione : i CivilComments impostati qui includono tutti i dati, ma solo le sette etichette di base (tossicità, tossicità_grave, osceno, minaccia, insulto, attacco_d'identità e sesso_esplicito).

  • Dimensione del set di dati : 1.54 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 97.320
'train' 1.804.874
'validation' 97.320
  • Struttura delle caratteristiche :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
articolo_id Tensore int32
Data di Creazione Tensore corda
id Tensore corda
attacco_identità Tensore galleggiante32
insulto Tensore galleggiante32
osceno Tensore galleggiante32
parent_id Tensore int32
genitore_testo Testo corda
pubblicazione_id Tensore corda
grave_tossicità Tensore galleggiante32
sessuale_esplicito Tensore galleggiante32
testo Testo corda
minaccia Tensore galleggiante32
tossicità Tensore galleggiante32
  • Citazione :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsIdentities

  • Descrizione della configurazione : il CivilCommentsIdentities impostato qui include un set esteso di etichette di identità oltre alle sette etichette di base. Tuttavia, include solo il sottoinsieme (circa un quarto) dei dati con tutte queste caratteristiche.

  • Dimensione del set di dati : 654.97 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 21.577
'train' 405,130
'validation' 21.293
  • Struttura delle caratteristiche :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
articolo_id Tensore int32
asiatico Tensore galleggiante32
ateo Tensore galleggiante32
bisessuale Tensore galleggiante32
nero Tensore galleggiante32
buddista Tensore galleggiante32
cristiano Tensore galleggiante32
Data di Creazione Tensore corda
femmina Tensore galleggiante32
eterosessuale Tensore galleggiante32
indù Tensore galleggiante32
omosessuale_gay_o_lesbica Tensore galleggiante32
id Tensore corda
attacco_identità Tensore galleggiante32
insulto Tensore galleggiante32
disabilità_intellettuale_o_di_apprendimento Tensore galleggiante32
ebreo Tensore galleggiante32
latino Tensore galleggiante32
maschio Tensore galleggiante32
musulmano Tensore galleggiante32
osceno Tensore galleggiante32
altra_disabilità Tensore galleggiante32
altro_genere Tensore galleggiante32
altra_razza_o_etnia Tensore galleggiante32
altra_religione Tensore galleggiante32
altro_orientamento_sessuale Tensore galleggiante32
parent_id Tensore int32
genitore_testo Testo corda
disabilità fisica Tensore galleggiante32
malattia_psichiatrica_o_mentale Tensore galleggiante32
pubblicazione_id Tensore corda
grave_tossicità Tensore galleggiante32
sessuale_esplicito Tensore galleggiante32
testo Testo corda
minaccia Tensore galleggiante32
tossicità Tensore galleggiante32
transgender Tensore galleggiante32
bianco Tensore galleggiante32
  • Citazione :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsCovert

  • Descrizione della configurazione : ATTENZIONE: c'è un potenziale problema di qualità dei dati con CivilCommentsCovert che stiamo lavorando attivamente per risolvere (06/28/22); i dati sottostanti potrebbero cambiare!

Il set CivilCommentsCovert è un sottoinsieme di CivilCommentsIdentities con circa il 20% del treno e delle divisioni di test ulteriormente annotate per offensività nascosta, oltre alle etichette di tossicità e identità. Ai valutatori è stato chiesto di classificare i commenti come esplicitamente, implicitamente, non o non sicuri se offensivi, nonché se contenevano diversi tipi di offensività nascosta. La procedura di annotazione completa è dettagliata in un documento di prossima pubblicazione all'indirizzo https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • Dimensione del set di dati : 97.83 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 2.455
'train' 48.074
  • Struttura delle caratteristiche :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
articolo_id Tensore int32
asiatico Tensore galleggiante32
ateo Tensore galleggiante32
bisessuale Tensore galleggiante32
nero Tensore galleggiante32
buddista Tensore galleggiante32
cristiano Tensore galleggiante32
covert_emoticons_emojis Tensore galleggiante32
covert_humour Tensore galleggiante32
covert_masked_harm Tensore galleggiante32
covert_microaggression Tensore galleggiante32
covert_offuscamento Tensore galleggiante32
covert_political Tensore galleggiante32
covert_sarcasmo Tensore galleggiante32
Data di Creazione Tensore corda
esplicitamente_offensivo Tensore galleggiante32
femmina Tensore galleggiante32
eterosessuale Tensore galleggiante32
indù Tensore galleggiante32
omosessuale_gay_o_lesbica Tensore galleggiante32
id Tensore corda
attacco_identità Tensore galleggiante32
implicitamente_offensivo Tensore galleggiante32
insulto Tensore galleggiante32
disabilità_intellettuale_o_di_apprendimento Tensore galleggiante32
ebreo Tensore galleggiante32
latino Tensore galleggiante32
maschio Tensore galleggiante32
musulmano Tensore galleggiante32
non_offensivo Tensore galleggiante32
not_sure_offensive Tensore galleggiante32
osceno Tensore galleggiante32
altra_disabilità Tensore galleggiante32
altro_genere Tensore galleggiante32
altra_razza_o_etnia Tensore galleggiante32
altra_religione Tensore galleggiante32
altro_orientamento_sessuale Tensore galleggiante32
parent_id Tensore int32
genitore_testo Testo corda
disabilità fisica Tensore galleggiante32
malattia_psichiatrica_o_mentale Tensore galleggiante32
pubblicazione_id Tensore corda
grave_tossicità Tensore galleggiante32
sessuale_esplicito Tensore galleggiante32
testo Testo corda
minaccia Tensore galleggiante32
tossicità Tensore galleggiante32
transgender Tensore galleggiante32
bianco Tensore galleggiante32
  • Citazione :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

civil_comments/CivilCommentsToxicSpans

  • Descrizione della configurazione : i CivilComments Toxic Spans sono un sottoinsieme di CivilComments etichettato a livello di span: gli indici di tutti i limiti di carattere (codepoint Unicode) che sono stati contrassegnati come tossici dalla maggior parte degli annotatori vengono restituiti in una funzione "spans".

  • Dimensione del set di dati : 5.81 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 2.000
'train' 7.939
'validation' 682
  • Struttura delle caratteristiche :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
articolo_id Tensore int32
Data di Creazione Tensore corda
id Tensore corda
parent_id Tensore int32
genitore_testo Testo corda
pubblicazione_id Tensore corda
campate Tensore (Nessuno,) int32
testo Testo corda
  • Citazione :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

civil_comments/CivilCommentsInContext

  • Descrizione della configurazione : CivilComments in Context è un sottoinsieme di CivilComments che è stato etichettato mettendo a disposizione degli etichettatori parent_text. Include una funzione contextual_toxicity.

  • Dimensione del set di dati : 9.63 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'train' 9.969
  • Struttura delle caratteristiche :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
articolo_id Tensore int32
tossicità_contestuale Tensore galleggiante32
Data di Creazione Tensore corda
id Tensore corda
attacco_identità Tensore galleggiante32
insulto Tensore galleggiante32
osceno Tensore galleggiante32
parent_id Tensore int32
genitore_testo Testo corda
pubblicazione_id Tensore corda
grave_tossicità Tensore galleggiante32
sessuale_esplicito Tensore galleggiante32
testo Testo corda
minaccia Tensore galleggiante32
tossicità Tensore galleggiante32
  • Citazione :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}