- الوصف :
يوفر هذا الإصدار من مجموعة بيانات CivilComments الوصول إلى الملصقات السبعة الأساسية التي تم شرحها بواسطة عمال الحشد ، والسمية والعلامات الأخرى هي قيمة بين 0 و 1 تشير إلى جزء التعليقات التوضيحية التي عينت هذه السمات لنص التعليق.
العلامات الأخرى متاحة فقط لجزء بسيط من أمثلة الإدخال. يتم تجاهلها حاليًا لمجموعة البيانات الرئيسية ؛ تشتمل مجموعة الهويات المدنية على تلك الملصقات ، ولكنها تتكون فقط من مجموعة فرعية من البيانات معها. يتم تضمين السمات الأخرى التي كانت جزءًا من إصدار "التعليقات المدنية" الأصلي فقط في البيانات الأولية. راجع وثائق Kaggle للحصول على مزيد من التفاصيل حول الميزات المتاحة.
تأتي التعليقات في مجموعة البيانات هذه من أرشيف لمنصة التعليقات المدنية ، وهو مكون إضافي للتعليق لمواقع الأخبار المستقلة. تم إنشاء هذه التعليقات العامة من 2015 إلى 2017 وظهرت على ما يقرب من 50 موقعًا إخباريًا باللغة الإنجليزية في جميع أنحاء العالم. عندما أغلقت التعليقات المدنية في عام 2017 ، اختاروا إتاحة التعليقات العامة في أرشيف مفتوح دائم لتمكين البحث في المستقبل. تتضمن البيانات الأصلية المنشورة على figshare نص التعليق العام وبعض البيانات الوصفية المرتبطة به مثل معرفات المقالات ومعرفات النشر والطوابع الزمنية وعلامات "التحضر" التي ينشئها المعلقون ، ولكنها لا تتضمن معرفات المستخدم. قامت Jigsaw بتوسيع مجموعة البيانات هذه بإضافة ملصقات إضافية للسمية ، وإشارات الهوية ، بالإضافة إلى الهجوم الخفي. مجموعة البيانات هذه هي نسخة طبق الأصل من البيانات التي تم إصدارها لتحدي Kaggle لـ Jigsaw Unintended Bias في تصنيف السمية. تم إصدار مجموعة البيانات هذه تحت CC0 ، كما هو الحال في نص التعليق الأساسي.
بالنسبة للتعليقات التي تحتوي على معرف رئيسي أيضًا في بيانات التعليقات المدنية ، يتم توفير نص التعليق السابق كميزة "النص الرئيسي". لاحظ أنه تم إجراء التقسيمات دون اعتبار لهذه المعلومات ، لذا فإن استخدام التعليقات السابقة قد يؤدي إلى تسرب بعض المعلومات. لم يكن للمعلقين إمكانية الوصول إلى النص الأصلي عند عمل التسميات.
الصفحة الرئيسية : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
كود المصدر :
tfds.text.CivilComments
إصدارات :
-
1.0.0
: الإصدار الكامل الأولي. -
1.0.1
: تم إضافة معرف فريد لكل تعليق. -
1.1.0
: تمت إضافة تهيئة CivilCommentsCovert. -
1.1.1
: تمت إضافة تهيئة CivilCommentsCovert مع المجموع الاختباري الصحيح. -
1.1.2
: تمت إضافة اقتباس منفصل لمجموعة بيانات CivilCommentsCovert. -
1.1.3
: أنواع المعرف المصححة من عدد عشري إلى سلسلة. -
1.2.0
: إضافة امتدادات سامة ، وسياق ، وميزات نص التعليق الأصلي. -
1.2.1
: إصلاح التنسيق غير الصحيح في تقسيمات السياق. -
1.2.2
: تحديث ليعكس السياق الذي يحتوي فقط على تقسيم للقطار. -
1.2.3
: إضافة تحذير إلى CivilCommentsCovert أثناء قيامنا بإصلاح مشكلة البيانات. -
1.2.4
(افتراضي): أضف معرفات النشر والطوابع الزمنية للتعليق.
-
حجم التحميل :
427.41 MiB
الشكل ( tfds.show_examples ): غير مدعوم.
Civil_comments / CivilComments (التكوين الافتراضي)
وصف التكوين : تتضمن مجموعة التعليقات المدنية هنا جميع البيانات ، ولكن فقط الملصقات السبعة الأساسية (السمية ، والسمية الشديدة ، والفحش ، والتهديد ، والإهانة ، والهجوم على الهوية ، والهجوم الجنسي).
حجم مجموعة البيانات :
1.54 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 97320 |
'train' | 1،804،874 |
'validation' | 97320 |
- هيكل الميزة :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
article_id | موتر | int32 | ||
تاريخ الإنشاء | موتر | خيط | ||
بطاقة تعريف | موتر | خيط | ||
هوية_هجوم | موتر | تعويم 32 | ||
يسُبّ | موتر | تعويم 32 | ||
فاحش | موتر | تعويم 32 | ||
معرّف الوالدين | موتر | int32 | ||
parent_text | نص | خيط | ||
منشور_ معرّف | موتر | خيط | ||
السمية الشديدة | موتر | تعويم 32 | ||
صريح جنسي | موتر | تعويم 32 | ||
نص | نص | خيط | ||
تهديد | موتر | تعويم 32 | ||
تسمم | موتر | تعويم 32 |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):('text', 'toxicity')
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
Civil_comments / CivilCommentsIdentities
وصف التكوين : تتضمن CivilCommentsIdentities المحددة هنا مجموعة موسعة من تسميات الهوية بالإضافة إلى الملصقات السبعة الأساسية. ومع ذلك ، فإنه يشمل فقط المجموعة الفرعية (ربع تقريبًا) من البيانات مع كل هذه الميزات.
حجم مجموعة البيانات :
654.97 MiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 21.577 |
'train' | 405130 |
'validation' | 21293 |
- هيكل الميزة :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'created_date': string,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
article_id | موتر | int32 | ||
آسيا | موتر | تعويم 32 | ||
ملحد | موتر | تعويم 32 | ||
ثنائي الجنس | موتر | تعويم 32 | ||
أسود | موتر | تعويم 32 | ||
بوذي | موتر | تعويم 32 | ||
مسيحي | موتر | تعويم 32 | ||
تاريخ الإنشاء | موتر | خيط | ||
أنثى | موتر | تعويم 32 | ||
من جنسين مختلفين | موتر | تعويم 32 | ||
هندوسية | موتر | تعويم 32 | ||
مثلي الجنس أو مثلي الجنس | موتر | تعويم 32 | ||
بطاقة تعريف | موتر | خيط | ||
هوية_هجوم | موتر | تعويم 32 | ||
يسُبّ | موتر | تعويم 32 | ||
الفكري_أو_التوضيح_العجز | موتر | تعويم 32 | ||
يهودي | موتر | تعويم 32 | ||
لاتيني | موتر | تعويم 32 | ||
ذكر | موتر | تعويم 32 | ||
مسلم | موتر | تعويم 32 | ||
فاحش | موتر | تعويم 32 | ||
عجز آخر | موتر | تعويم 32 | ||
الجنس الآخر | موتر | تعويم 32 | ||
العرق_الأخر_أو_العرقية | موتر | تعويم 32 | ||
ديانة أخرى | موتر | تعويم 32 | ||
التوجهات الجنسية الأخرى | موتر | تعويم 32 | ||
معرّف الوالدين | موتر | int32 | ||
parent_text | نص | خيط | ||
إعاقة جسدية | موتر | تعويم 32 | ||
الأمراض النفسية أو العقلية | موتر | تعويم 32 | ||
منشور_ معرّف | موتر | خيط | ||
السمية الشديدة | موتر | تعويم 32 | ||
صريح جنسي | موتر | تعويم 32 | ||
نص | نص | خيط | ||
تهديد | موتر | تعويم 32 | ||
تسمم | موتر | تعويم 32 | ||
المتحولين جنسيا | موتر | تعويم 32 | ||
أبيض | موتر | تعويم 32 |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):('text', 'toxicity')
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
Civil_comments / CivilCommentsCovert
- وصف التكوين : تحذير: هناك مشكلة محتملة تتعلق بجودة البيانات مع CivilCommentsCovert نعمل بنشاط على إصلاحها (06/28/22) ؛ قد تتغير البيانات الأساسية!
مجموعة CivilCommentsCovert هي مجموعة فرعية من CivilCommentsIdentities مع 20٪ تقريبًا من الانقسامات في القطار والاختبار مشروحة بشكل إضافي للهجوم السري ، بالإضافة إلى تسميات السمية والهوية. طُلب من المقيِّمين تصنيف التعليقات على أنها تعليقات صريحة أو ضمنية أو لا أو غير متأكدة مما إذا كانت مسيئة ، وكذلك ما إذا كانت تحتوي على أنواع مختلفة من العدوانية السرية. تم تفصيل إجراء التعليق التوضيحي الكامل في ورقة قادمة على https://sites.google.com/corp/view/hciandnlp/accepted-papers
حجم مجموعة البيانات :
97.83 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 2،455 |
'train' | 48.074 |
- هيكل الميزة :
FeaturesDict({
'article_id': int32,
'asian': float32,
'atheist': float32,
'bisexual': float32,
'black': float32,
'buddhist': float32,
'christian': float32,
'covert_emoticons_emojis': float32,
'covert_humor': float32,
'covert_masked_harm': float32,
'covert_microaggression': float32,
'covert_obfuscation': float32,
'covert_political': float32,
'covert_sarcasm': float32,
'created_date': string,
'explicitly_offensive': float32,
'female': float32,
'heterosexual': float32,
'hindu': float32,
'homosexual_gay_or_lesbian': float32,
'id': string,
'identity_attack': float32,
'implicitly_offensive': float32,
'insult': float32,
'intellectual_or_learning_disability': float32,
'jewish': float32,
'latino': float32,
'male': float32,
'muslim': float32,
'not_offensive': float32,
'not_sure_offensive': float32,
'obscene': float32,
'other_disability': float32,
'other_gender': float32,
'other_race_or_ethnicity': float32,
'other_religion': float32,
'other_sexual_orientation': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'physical_disability': float32,
'psychiatric_or_mental_illness': float32,
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
'transgender': float32,
'white': float32,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
article_id | موتر | int32 | ||
آسيا | موتر | تعويم 32 | ||
ملحد | موتر | تعويم 32 | ||
ثنائي الجنس | موتر | تعويم 32 | ||
أسود | موتر | تعويم 32 | ||
بوذي | موتر | تعويم 32 | ||
مسيحي | موتر | تعويم 32 | ||
covert_emoticons_emojis | موتر | تعويم 32 | ||
الخفي | موتر | تعويم 32 | ||
Covert_masked_harm | موتر | تعويم 32 | ||
السرقة_العدوانية | موتر | تعويم 32 | ||
مخفي | موتر | تعويم 32 | ||
covert_political | موتر | تعويم 32 | ||
سخرية مخفية | موتر | تعويم 32 | ||
تاريخ الإنشاء | موتر | خيط | ||
صراحة_مسيئة | موتر | تعويم 32 | ||
أنثى | موتر | تعويم 32 | ||
من جنسين مختلفين | موتر | تعويم 32 | ||
هندوسية | موتر | تعويم 32 | ||
مثلي الجنس أو مثلي الجنس | موتر | تعويم 32 | ||
بطاقة تعريف | موتر | خيط | ||
هوية_هجوم | موتر | تعويم 32 | ||
هجوم ضمني | موتر | تعويم 32 | ||
يسُبّ | موتر | تعويم 32 | ||
الفكري_أو_التوضيح_العجز | موتر | تعويم 32 | ||
يهودي | موتر | تعويم 32 | ||
لاتيني | موتر | تعويم 32 | ||
ذكر | موتر | تعويم 32 | ||
مسلم | موتر | تعويم 32 | ||
not_offensive | موتر | تعويم 32 | ||
not_sure_offensive | موتر | تعويم 32 | ||
فاحش | موتر | تعويم 32 | ||
عجز آخر | موتر | تعويم 32 | ||
الجنس الآخر | موتر | تعويم 32 | ||
العرق_الأخر_أو_العرقية | موتر | تعويم 32 | ||
ديانة أخرى | موتر | تعويم 32 | ||
التوجهات الجنسية الأخرى | موتر | تعويم 32 | ||
معرّف الوالدين | موتر | int32 | ||
parent_text | نص | خيط | ||
إعاقة جسدية | موتر | تعويم 32 | ||
الأمراض النفسية أو العقلية | موتر | تعويم 32 | ||
منشور_ معرّف | موتر | خيط | ||
السمية الشديدة | موتر | تعويم 32 | ||
صريح جنسي | موتر | تعويم 32 | ||
نص | نص | خيط | ||
تهديد | موتر | تعويم 32 | ||
تسمم | موتر | تعويم 32 | ||
المتحولين جنسيا | موتر | تعويم 32 | ||
أبيض | موتر | تعويم 32 |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):('text', 'toxicity')
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
Civil_comments / تعليقات مدنية
وصف التكوين : الامتدادات السمية الخاصة بـ CivilComments هي مجموعة فرعية من التعليقات المدنية التي تم تصنيفها على مستوى الامتداد - يتم إرجاع مؤشرات جميع حدود الأحرف (نقاط الشفرة الموحدة) التي تم وضع علامة عليها على أنها سامة من قِبل غالبية التعليقات التوضيحية في ميزة "الامتدادات".
حجم مجموعة البيانات :
5.81 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 2000 |
'train' | 7939 |
'validation' | 682 |
- هيكل الميزة :
FeaturesDict({
'article_id': int32,
'created_date': string,
'id': string,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'spans': Tensor(shape=(None,), dtype=int32),
'text': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
article_id | موتر | int32 | ||
تاريخ الإنشاء | موتر | خيط | ||
بطاقة تعريف | موتر | خيط | ||
معرّف الوالدين | موتر | int32 | ||
parent_text | نص | خيط | ||
منشور_ معرّف | موتر | خيط | ||
يمتد | موتر | (لا أحد،) | int32 | |
نص | نص | خيط |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('text', 'spans')
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
Civil_comments / CivilCommentsInContext
وصف التكوين : تعد "التعليقات المدنية في السياق" مجموعة فرعية من "التعليقات المدنية" تم تصنيفها من خلال إتاحة النص الرئيسي للمُصنّعين. يتضمن خاصية السمية السياقية.
حجم مجموعة البيانات :
9.63 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
ينقسم | أمثلة |
---|---|
'train' | 9،969 |
- هيكل الميزة :
FeaturesDict({
'article_id': int32,
'contextual_toxicity': float32,
'created_date': string,
'id': string,
'identity_attack': float32,
'insult': float32,
'obscene': float32,
'parent_id': int32,
'parent_text': Text(shape=(), dtype=string),
'publication_id': string,
'severe_toxicity': float32,
'sexual_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
article_id | موتر | int32 | ||
السمية السياقية | موتر | تعويم 32 | ||
تاريخ الإنشاء | موتر | خيط | ||
بطاقة تعريف | موتر | خيط | ||
هوية_هجوم | موتر | تعويم 32 | ||
يسُبّ | موتر | تعويم 32 | ||
فاحش | موتر | تعويم 32 | ||
معرّف الوالدين | موتر | int32 | ||
parent_text | نص | خيط | ||
منشور_ معرّف | موتر | خيط | ||
السمية الشديدة | موتر | تعويم 32 | ||
صريح جنسي | موتر | تعويم 32 | ||
نص | نص | خيط | ||
تهديد | موتر | تعويم 32 | ||
تسمم | موتر | تعويم 32 |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):('text', 'toxicity')
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}