تعليقات مدنية

  • الوصف :

يوفر هذا الإصدار من مجموعة بيانات CivilComments الوصول إلى الملصقات السبعة الأساسية التي تم شرحها بواسطة عمال الحشد ، والسمية والعلامات الأخرى هي قيمة بين 0 و 1 تشير إلى جزء التعليقات التوضيحية التي عينت هذه السمات لنص التعليق.

العلامات الأخرى متاحة فقط لجزء بسيط من أمثلة الإدخال. يتم تجاهلها حاليًا لمجموعة البيانات الرئيسية ؛ تشتمل مجموعة الهويات المدنية على تلك الملصقات ، ولكنها تتكون فقط من مجموعة فرعية من البيانات معها. يتم تضمين السمات الأخرى التي كانت جزءًا من إصدار "التعليقات المدنية" الأصلي فقط في البيانات الأولية. راجع وثائق Kaggle للحصول على مزيد من التفاصيل حول الميزات المتاحة.

تأتي التعليقات في مجموعة البيانات هذه من أرشيف لمنصة التعليقات المدنية ، وهو مكون إضافي للتعليق لمواقع الأخبار المستقلة. تم إنشاء هذه التعليقات العامة من 2015 إلى 2017 وظهرت على ما يقرب من 50 موقعًا إخباريًا باللغة الإنجليزية في جميع أنحاء العالم. عندما أغلقت التعليقات المدنية في عام 2017 ، اختاروا إتاحة التعليقات العامة في أرشيف مفتوح دائم لتمكين البحث في المستقبل. تتضمن البيانات الأصلية المنشورة على figshare نص التعليق العام وبعض البيانات الوصفية المرتبطة به مثل معرفات المقالات ومعرفات النشر والطوابع الزمنية وعلامات "التحضر" التي ينشئها المعلقون ، ولكنها لا تتضمن معرفات المستخدم. قامت Jigsaw بتوسيع مجموعة البيانات هذه بإضافة ملصقات إضافية للسمية ، وإشارات الهوية ، بالإضافة إلى الهجوم الخفي. مجموعة البيانات هذه هي نسخة طبق الأصل من البيانات التي تم إصدارها لتحدي Kaggle لـ Jigsaw Unintended Bias في تصنيف السمية. تم إصدار مجموعة البيانات هذه تحت CC0 ، كما هو الحال في نص التعليق الأساسي.

بالنسبة للتعليقات التي تحتوي على معرف رئيسي أيضًا في بيانات التعليقات المدنية ، يتم توفير نص التعليق السابق كميزة "النص الرئيسي". لاحظ أنه تم إجراء التقسيمات دون اعتبار لهذه المعلومات ، لذا فإن استخدام التعليقات السابقة قد يؤدي إلى تسرب بعض المعلومات. لم يكن للمعلقين إمكانية الوصول إلى النص الأصلي عند عمل التسميات.

  • الصفحة الرئيسية : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • كود المصدر : tfds.text.CivilComments

  • إصدارات :

    • 1.0.0 : الإصدار الكامل الأولي.
    • 1.0.1 : تم إضافة معرف فريد لكل تعليق.
    • 1.1.0 : تمت إضافة تهيئة CivilCommentsCovert.
    • 1.1.1 : تمت إضافة تهيئة CivilCommentsCovert مع المجموع الاختباري الصحيح.
    • 1.1.2 : تمت إضافة اقتباس منفصل لمجموعة بيانات CivilCommentsCovert.
    • 1.1.3 : أنواع المعرف المصححة من عدد عشري إلى سلسلة.
    • 1.2.0 : إضافة امتدادات سامة ، وسياق ، وميزات نص التعليق الأصلي.
    • 1.2.1 : إصلاح التنسيق غير الصحيح في تقسيمات السياق.
    • 1.2.2 : تحديث ليعكس السياق الذي يحتوي فقط على تقسيم للقطار.
    • 1.2.3 : إضافة تحذير إلى CivilCommentsCovert أثناء قيامنا بإصلاح مشكلة البيانات.
    • 1.2.4 (افتراضي): أضف معرفات النشر والطوابع الزمنية للتعليق.
  • حجم التحميل : 427.41 MiB

  • الشكل ( tfds.show_examples ): غير مدعوم.

Civil_comments / CivilComments (التكوين الافتراضي)

  • وصف التكوين : تتضمن مجموعة التعليقات المدنية هنا جميع البيانات ، ولكن فقط الملصقات السبعة الأساسية (السمية ، والسمية الشديدة ، والفحش ، والتهديد ، والإهانة ، والهجوم على الهوية ، والهجوم الجنسي).

  • حجم مجموعة البيانات : 1.54 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

ينقسم أمثلة
'test' 97320
'train' 1،804،874
'validation' 97320
  • هيكل الميزة :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
article_id موتر int32
تاريخ الإنشاء موتر خيط
بطاقة تعريف موتر خيط
هوية_هجوم موتر تعويم 32
يسُبّ موتر تعويم 32
فاحش موتر تعويم 32
معرّف الوالدين موتر int32
parent_text نص خيط
منشور_ معرّف موتر خيط
السمية الشديدة موتر تعويم 32
صريح جنسي موتر تعويم 32
نص نص خيط
تهديد موتر تعويم 32
تسمم موتر تعويم 32
  • الاقتباس :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments / CivilCommentsIdentities

  • وصف التكوين : تتضمن CivilCommentsIdentities المحددة هنا مجموعة موسعة من تسميات الهوية بالإضافة إلى الملصقات السبعة الأساسية. ومع ذلك ، فإنه يشمل فقط المجموعة الفرعية (ربع تقريبًا) من البيانات مع كل هذه الميزات.

  • حجم مجموعة البيانات : 654.97 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

ينقسم أمثلة
'test' 21.577
'train' 405130
'validation' 21293
  • هيكل الميزة :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
article_id موتر int32
آسيا موتر تعويم 32
ملحد موتر تعويم 32
ثنائي الجنس موتر تعويم 32
أسود موتر تعويم 32
بوذي موتر تعويم 32
مسيحي موتر تعويم 32
تاريخ الإنشاء موتر خيط
أنثى موتر تعويم 32
من جنسين مختلفين موتر تعويم 32
هندوسية موتر تعويم 32
مثلي الجنس أو مثلي الجنس موتر تعويم 32
بطاقة تعريف موتر خيط
هوية_هجوم موتر تعويم 32
يسُبّ موتر تعويم 32
الفكري_أو_التوضيح_العجز موتر تعويم 32
يهودي موتر تعويم 32
لاتيني موتر تعويم 32
ذكر موتر تعويم 32
مسلم موتر تعويم 32
فاحش موتر تعويم 32
عجز آخر موتر تعويم 32
الجنس الآخر موتر تعويم 32
العرق_الأخر_أو_العرقية موتر تعويم 32
ديانة أخرى موتر تعويم 32
التوجهات الجنسية الأخرى موتر تعويم 32
معرّف الوالدين موتر int32
parent_text نص خيط
إعاقة جسدية موتر تعويم 32
الأمراض النفسية أو العقلية موتر تعويم 32
منشور_ معرّف موتر خيط
السمية الشديدة موتر تعويم 32
صريح جنسي موتر تعويم 32
نص نص خيط
تهديد موتر تعويم 32
تسمم موتر تعويم 32
المتحولين جنسيا موتر تعويم 32
أبيض موتر تعويم 32
  • الاقتباس :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments / CivilCommentsCovert

  • وصف التكوين : تحذير: هناك مشكلة محتملة تتعلق بجودة البيانات مع CivilCommentsCovert نعمل بنشاط على إصلاحها (06/28/22) ؛ قد تتغير البيانات الأساسية!

مجموعة CivilCommentsCovert هي مجموعة فرعية من CivilCommentsIdentities مع 20٪ تقريبًا من الانقسامات في القطار والاختبار مشروحة بشكل إضافي للهجوم السري ، بالإضافة إلى تسميات السمية والهوية. طُلب من المقيِّمين تصنيف التعليقات على أنها تعليقات صريحة أو ضمنية أو لا أو غير متأكدة مما إذا كانت مسيئة ، وكذلك ما إذا كانت تحتوي على أنواع مختلفة من العدوانية السرية. تم تفصيل إجراء التعليق التوضيحي الكامل في ورقة قادمة على https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • حجم مجموعة البيانات : 97.83 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

ينقسم أمثلة
'test' 2،455
'train' 48.074
  • هيكل الميزة :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
article_id موتر int32
آسيا موتر تعويم 32
ملحد موتر تعويم 32
ثنائي الجنس موتر تعويم 32
أسود موتر تعويم 32
بوذي موتر تعويم 32
مسيحي موتر تعويم 32
covert_emoticons_emojis موتر تعويم 32
الخفي موتر تعويم 32
Covert_masked_harm موتر تعويم 32
السرقة_العدوانية موتر تعويم 32
مخفي موتر تعويم 32
covert_political موتر تعويم 32
سخرية مخفية موتر تعويم 32
تاريخ الإنشاء موتر خيط
صراحة_مسيئة موتر تعويم 32
أنثى موتر تعويم 32
من جنسين مختلفين موتر تعويم 32
هندوسية موتر تعويم 32
مثلي الجنس أو مثلي الجنس موتر تعويم 32
بطاقة تعريف موتر خيط
هوية_هجوم موتر تعويم 32
هجوم ضمني موتر تعويم 32
يسُبّ موتر تعويم 32
الفكري_أو_التوضيح_العجز موتر تعويم 32
يهودي موتر تعويم 32
لاتيني موتر تعويم 32
ذكر موتر تعويم 32
مسلم موتر تعويم 32
not_offensive موتر تعويم 32
not_sure_offensive موتر تعويم 32
فاحش موتر تعويم 32
عجز آخر موتر تعويم 32
الجنس الآخر موتر تعويم 32
العرق_الأخر_أو_العرقية موتر تعويم 32
ديانة أخرى موتر تعويم 32
التوجهات الجنسية الأخرى موتر تعويم 32
معرّف الوالدين موتر int32
parent_text نص خيط
إعاقة جسدية موتر تعويم 32
الأمراض النفسية أو العقلية موتر تعويم 32
منشور_ معرّف موتر خيط
السمية الشديدة موتر تعويم 32
صريح جنسي موتر تعويم 32
نص نص خيط
تهديد موتر تعويم 32
تسمم موتر تعويم 32
المتحولين جنسيا موتر تعويم 32
أبيض موتر تعويم 32
  • الاقتباس :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

Civil_comments / تعليقات مدنية

  • وصف التكوين : الامتدادات السمية الخاصة بـ CivilComments هي مجموعة فرعية من التعليقات المدنية التي تم تصنيفها على مستوى الامتداد - يتم إرجاع مؤشرات جميع حدود الأحرف (نقاط الشفرة الموحدة) التي تم وضع علامة عليها على أنها سامة من قِبل غالبية التعليقات التوضيحية في ميزة "الامتدادات".

  • حجم مجموعة البيانات : 5.81 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

ينقسم أمثلة
'test' 2000
'train' 7939
'validation' 682
  • هيكل الميزة :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
article_id موتر int32
تاريخ الإنشاء موتر خيط
بطاقة تعريف موتر خيط
معرّف الوالدين موتر int32
parent_text نص خيط
منشور_ معرّف موتر خيط
يمتد موتر (لا أحد،) int32
نص نص خيط
  • الاقتباس :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

Civil_comments / CivilCommentsInContext

  • وصف التكوين : تعد "التعليقات المدنية في السياق" مجموعة فرعية من "التعليقات المدنية" تم تصنيفها من خلال إتاحة النص الرئيسي للمُصنّعين. يتضمن خاصية السمية السياقية.

  • حجم مجموعة البيانات : 9.63 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

ينقسم أمثلة
'train' 9،969
  • هيكل الميزة :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
article_id موتر int32
السمية السياقية موتر تعويم 32
تاريخ الإنشاء موتر خيط
بطاقة تعريف موتر خيط
هوية_هجوم موتر تعويم 32
يسُبّ موتر تعويم 32
فاحش موتر تعويم 32
معرّف الوالدين موتر int32
parent_text نص خيط
منشور_ معرّف موتر خيط
السمية الشديدة موتر تعويم 32
صريح جنسي موتر تعويم 32
نص نص خيط
تهديد موتر تعويم 32
تسمم موتر تعويم 32
  • الاقتباس :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}