नागरिक_टिप्पणियां

  • विवरण :

सिविलकॉमेंट्स डेटासेट का यह संस्करण उन प्राथमिक सात लेबलों तक पहुंच प्रदान करता है जिन्हें क्राउड वर्कर्स द्वारा एनोटेट किया गया था, विषाक्तता और अन्य टैग 0 और 1 के बीच का मान है जो एनोटेटर के अंश को दर्शाता है जो इन विशेषताओं को टिप्पणी पाठ में निर्दिष्ट करते हैं।

अन्य टैग केवल इनपुट उदाहरणों के एक अंश के लिए उपलब्ध हैं। उन्हें वर्तमान में मुख्य डेटासेट के लिए अनदेखा किया जाता है; CivilCommentsIdentities सेट में वे लेबल शामिल होते हैं, लेकिन केवल उनके साथ डेटा का सबसेट होता है। अन्य विशेषताएं जो मूल सिविल कॉमेंट्स रिलीज का हिस्सा थीं, केवल कच्चे डेटा में शामिल हैं। उपलब्ध सुविधाओं के बारे में अधिक जानकारी के लिए कागल दस्तावेज़ीकरण देखें।

इस डेटासेट में टिप्पणियां स्वतंत्र समाचार साइटों के लिए एक टिप्पणी प्लगइन, सिविल कमेंट प्लेटफॉर्म के एक संग्रह से आती हैं। ये सार्वजनिक टिप्पणियाँ 2015 - 2017 से बनाई गई थीं और दुनिया भर में लगभग 50 अंग्रेजी-भाषा समाचार साइटों पर दिखाई दीं। जब सिविल टिप्पणियाँ 2017 में बंद हो गईं, तो उन्होंने भविष्य के शोध को सक्षम करने के लिए सार्वजनिक टिप्पणियों को एक स्थायी खुले संग्रह में उपलब्ध कराने का विकल्प चुना। फ़िगशेयर पर प्रकाशित मूल डेटा में सार्वजनिक टिप्पणी पाठ, कुछ संबद्ध मेटाडेटा जैसे लेख आईडी, प्रकाशन आईडी, टाइमस्टैम्प और टिप्पणीकार-जनित "नागरिकता" लेबल शामिल हैं, लेकिन इसमें उपयोगकर्ता आईडी शामिल नहीं है। आरा ने इस डेटासेट को विषाक्तता, पहचान के उल्लेख के साथ-साथ गुप्त अपराध के लिए अतिरिक्त लेबल जोड़कर बढ़ाया। यह डेटा सेट विषाक्तता वर्गीकरण कागल चुनौती में आरा अनपेक्षित पूर्वाग्रह के लिए जारी किए गए डेटा की एक सटीक प्रतिकृति है। यह डेटासेट CC0 के तहत जारी किया गया है, जैसा कि अंतर्निहित टिप्पणी पाठ है।

उन टिप्पणियों के लिए जिनकी नागरिक टिप्पणियों के डेटा में भी एक parent_id है, पिछली टिप्पणी का पाठ "parent_text" सुविधा के रूप में प्रदान किया गया है। ध्यान दें कि विभाजन इस जानकारी पर ध्यान दिए बिना किए गए थे, इसलिए पिछली टिप्पणियों का उपयोग करने से कुछ जानकारी लीक हो सकती है। लेबल बनाते समय एनोटेटर के पास मूल पाठ तक पहुंच नहीं थी।

  • होमपेज : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • स्रोत कोड : tfds.text.CivilComments

  • संस्करण :

    • 1.0.0 : आरंभिक पूर्ण रिलीज।
    • 1.0.1 : प्रत्येक टिप्पणी के लिए एक अद्वितीय आईडी जोड़ा गया।
    • 1.1.0 : जोड़ा गया CivilCommentsCovert कॉन्फ़िग।
    • 1.1.1 : सही चेकसम के साथ जोड़ा गया CivilCommentsCovert कॉन्फ़िग।
    • 1.1.2 : CivilCommentsCovert डेटासेट के लिए अलग से उद्धरण जोड़ा गया।
    • 1.1.3 : फ्लोट से स्ट्रिंग तक सही आईडी प्रकार।
    • 1.2.0 : टॉक्सिक स्पैन, कॉन्टेक्स्ट और पैरेंट कमेंट टेक्स्ट फीचर जोड़ें।
    • 1.2.1 : संदर्भ विभाजन में गलत स्वरूपण को ठीक करें।
    • 1.2.2 : केवल ट्रेन के बंटने के संदर्भ को दर्शाने के लिए अपडेट करें।
    • 1.2.3 : जैसे ही हम डेटा समस्या का समाधान करते हैं, CivilCommentsCovert में चेतावनी जोड़ें।
    • 1.2.4 (डिफ़ॉल्ट): प्रकाशन आईडी और टिप्पणी टाइमस्टैम्प जोड़ें।
  • डाउनलोड आकार : 427.41 MiB

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

Civil_comments/CivilComments (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िगरेशन विवरण : यहां सेट किए गए सिविल कॉमेंट्स में सभी डेटा शामिल हैं, लेकिन केवल मूल सात लेबल (विषाक्तता, गंभीर_विषाक्तता, अश्लीलता, धमकी, अपमान, पहचान_हमला, और यौन_स्पष्ट)।

  • डेटासेट का आकार : 1.54 GiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 97,320
'train' 1,804,874
'validation' 97,320
  • फ़ीचर संरचना :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
article_id टेन्सर int32
सृजित दिनांक टेन्सर डोरी
पहचान टेन्सर डोरी
Identity_Attack टेन्सर फ्लोट32
अपमान करना टेन्सर फ्लोट32
अश्लील बना टेन्सर फ्लोट32
माता पिता की पहचान टेन्सर int32
parent_text मूलपाठ डोरी
प्रकाशन_आईडी टेन्सर डोरी
very_toxicity टेन्सर फ्लोट32
sex_explicit टेन्सर फ्लोट32
मूलपाठ मूलपाठ डोरी
धमकी टेन्सर फ्लोट32
विषाक्तता टेन्सर फ्लोट32
  • उद्धरण :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

सिविल_टिप्पणियां/सिविल टिप्पणियां पहचान

  • Config विवरण : यहाँ सेट किए गए CivilCommentsIdentities में मूल सात लेबल के अलावा पहचान लेबल का एक विस्तारित सेट शामिल है। हालाँकि, इसमें इन सभी सुविधाओं के साथ डेटा का केवल सबसेट (लगभग एक चौथाई) शामिल है।

  • डेटासेट का आकार : 654.97 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 21,577
'train' 405,130
'validation' 21,293
  • फ़ीचर संरचना :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
article_id टेन्सर int32
एशियाई टेन्सर फ्लोट32
नास्तिक टेन्सर फ्लोट32
उभयलिंगी टेन्सर फ्लोट32
काला टेन्सर फ्लोट32
बौद्ध टेन्सर फ्लोट32
ईसाई टेन्सर फ्लोट32
सृजित दिनांक टेन्सर डोरी
महिला टेन्सर फ्लोट32
हेटेरोसेक्सयल टेन्सर फ्लोट32
हिंदू टेन्सर फ्लोट32
समलैंगिक_समलैंगिक_या_लेस्बियन टेन्सर फ्लोट32
पहचान टेन्सर डोरी
Identity_Attack टेन्सर फ्लोट32
अपमान करना टेन्सर फ्लोट32
बौद्धिक_या_शिक्षण_अक्षमता टेन्सर फ्लोट32
यहूदी टेन्सर फ्लोट32
लातीनी टेन्सर फ्लोट32
नर टेन्सर फ्लोट32
मुसलमान टेन्सर फ्लोट32
अश्लील बना टेन्सर फ्लोट32
अन्य_विकलांगता टेन्सर फ्लोट32
अन्य_लिंग टेन्सर फ्लोट32
Other_race_or_ethnicity टेन्सर फ्लोट32
अन्य_धर्म टेन्सर फ्लोट32
अन्य_यौन_अभिविन्यास टेन्सर फ्लोट32
माता पिता की पहचान टेन्सर int32
parent_text मूलपाठ डोरी
शारीरिक अपंगता टेन्सर फ्लोट32
मनोरोग_या_मानसिक_बीमारी टेन्सर फ्लोट32
प्रकाशन_आईडी टेन्सर डोरी
very_toxicity टेन्सर फ्लोट32
sex_explicit टेन्सर फ्लोट32
मूलपाठ मूलपाठ डोरी
धमकी टेन्सर फ्लोट32
विषाक्तता टेन्सर फ्लोट32
ट्रांसजेंडर टेन्सर फ्लोट32
सफ़ेद टेन्सर फ्लोट32
  • उद्धरण :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

सिविल_टिप्पणियां/सिविल टिप्पणियाँगुप्त

  • कॉन्फिग विवरण : चेतावनी: CivilCommentsCovert के साथ एक संभावित डेटा गुणवत्ता समस्या है जिसे हम ठीक करने पर सक्रिय रूप से काम कर रहे हैं (06/28/22); अंतर्निहित डेटा बदल सकता है!

CivilCommentsCovert सेट, विषाक्तता और पहचान लेबल के अलावा, ~ 20% ट्रेन और टेस्ट स्प्लिट के साथ CivilCommentsIdentities का एक उपसमूह है। रेटर्स को टिप्पणियों को स्पष्ट रूप से वर्गीकृत करने के लिए कहा गया था, स्पष्ट रूप से, नहीं, या आक्रामक होने पर सुनिश्चित नहीं है, साथ ही साथ इसमें विभिन्न प्रकार के गुप्त अपराध शामिल हैं या नहीं। संपूर्ण एनोटेशन प्रक्रिया https://sites.google.com/corp/view/hciandnlp/accepted-papers पर आगामी पेपर में विस्तृत है

विभाजित करना उदाहरण
'test' 2,455
'train' 48,074
  • फ़ीचर संरचना :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
article_id टेन्सर int32
एशियाई टेन्सर फ्लोट32
नास्तिक टेन्सर फ्लोट32
उभयलिंगी टेन्सर फ्लोट32
काला टेन्सर फ्लोट32
बौद्ध टेन्सर फ्लोट32
ईसाई टेन्सर फ्लोट32
covert_emoticons_emojis टेन्सर फ्लोट32
गुप्तहास्य टेन्सर फ्लोट32
गुप्त_नकाबपोश_हानि टेन्सर फ्लोट32
covert_microaggression टेन्सर फ्लोट32
गुप्त_बाधा टेन्सर फ्लोट32
गुप्त_राजनीतिक टेन्सर फ्लोट32
गुप्त_व्यंग्य टेन्सर फ्लोट32
सृजित दिनांक टेन्सर डोरी
स्पष्ट रूप से अपमानजनक टेन्सर फ्लोट32
महिला टेन्सर फ्लोट32
हेटेरोसेक्सयल टेन्सर फ्लोट32
हिंदू टेन्सर फ्लोट32
समलैंगिक_समलैंगिक_या_लेस्बियन टेन्सर फ्लोट32
पहचान टेन्सर डोरी
Identity_Attack टेन्सर फ्लोट32
implicitly_offensive टेन्सर फ्लोट32
अपमान करना टेन्सर फ्लोट32
बौद्धिक_या_शिक्षण_अक्षमता टेन्सर फ्लोट32
यहूदी टेन्सर फ्लोट32
लातीनी टेन्सर फ्लोट32
नर टेन्सर फ्लोट32
मुसलमान टेन्सर फ्लोट32
not_offensive टेन्सर फ्लोट32
not_sure_offensive टेन्सर फ्लोट32
अश्लील बना टेन्सर फ्लोट32
अन्य_विकलांगता टेन्सर फ्लोट32
अन्य_लिंग टेन्सर फ्लोट32
Other_race_or_ethnicity टेन्सर फ्लोट32
अन्य_धर्म टेन्सर फ्लोट32
अन्य_यौन_अभिविन्यास टेन्सर फ्लोट32
माता पिता की पहचान टेन्सर int32
parent_text मूलपाठ डोरी
शारीरिक अपंगता टेन्सर फ्लोट32
मनोरोग_या_मानसिक_बीमारी टेन्सर फ्लोट32
प्रकाशन_आईडी टेन्सर डोरी
very_toxicity टेन्सर फ्लोट32
sex_explicit टेन्सर फ्लोट32
मूलपाठ मूलपाठ डोरी
धमकी टेन्सर फ्लोट32
विषाक्तता टेन्सर फ्लोट32
ट्रांसजेंडर टेन्सर फ्लोट32
सफ़ेद टेन्सर फ्लोट32
  • उद्धरण :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

Civil_comments/CivilCommentsToxicSpans

  • कॉन्फिग विवरण : सिविल कॉमेंट्स टॉक्सिक स्पैन सिविल कॉमेंट्स का एक सबसेट है जिसे स्पैन स्तर पर लेबल किया जाता है - सभी कैरेक्टर (यूनिकोड कोडपॉइंट्स) सीमाओं के सूचकांक जिन्हें बहुसंख्यक एनोटेटर्स द्वारा विषाक्त के रूप में टैग किया गया था, एक 'स्पैन' सुविधा में वापस आ जाते हैं।

  • डेटासेट का आकार : 5.81 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,000
'train' 7,939
'validation' 682
  • फ़ीचर संरचना :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
article_id टेन्सर int32
सृजित दिनांक टेन्सर डोरी
पहचान टेन्सर डोरी
माता पिता की पहचान टेन्सर int32
parent_text मूलपाठ डोरी
प्रकाशन_आईडी टेन्सर डोरी
तक फैला टेन्सर (कोई नहीं,) int32
मूलपाठ मूलपाठ डोरी
  • उद्धरण :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

Civil_comments/CivilCommentsInContext

  • कॉन्फिग विवरण : संदर्भ में सिविल कॉमेंट्स सिविल कॉमेंट्स का एक सबसेट है जिसे लेबलर्स को पैरेंट_टेक्स्ट उपलब्ध कराकर लेबल किया गया था। इसमें एक प्रासंगिक_विषाक्तता सुविधा शामिल है।

  • डेटासेट का आकार : 9.63 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 9,969
  • फ़ीचर संरचना :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
article_id टेन्सर int32
प्रासंगिक_विषाक्तता टेन्सर फ्लोट32
सृजित दिनांक टेन्सर डोरी
पहचान टेन्सर डोरी
Identity_Attack टेन्सर फ्लोट32
अपमान करना टेन्सर फ्लोट32
अश्लील बना टेन्सर फ्लोट32
माता पिता की पहचान टेन्सर int32
parent_text मूलपाठ डोरी
प्रकाशन_आईडी टेन्सर डोरी
very_toxicity टेन्सर फ्लोट32
sex_explicit टेन्सर फ्लोट32
मूलपाठ मूलपाठ डोरी
धमकी टेन्सर फ्लोट32
विषाक्तता टेन्सर फ्लोट32
  • उद्धरण :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}