- وصف :
مطالبات السمية الحقيقية: تقييم الانحطاط السام العصبي في نماذج اللغة
إن RealToxicityPrompts عبارة عن مجموعة من المطالبات الإنجليزية (على وجه التحديد بدايات الجملة) ذات سمية متفاوتة. من المفترض أن يتم تقديم هذه المطالبات كسياقات لنموذج لغة الانحدار الذاتي (أي GPT-2) واستخدامها لإنشاء الإكمالات.
وترد مزيد من التفاصيل في الورقة الأصلية.
الصفحة الرئيسية : https://github.com/allenai/real-oxyity-prompts
كود المصدر :
tfds.datasets.real_toxicity_prompts.Builder
الإصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التحميل :
3.46 GiB
حجم مجموعة البيانات :
81.22 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'train' | 99,442 |
- هيكل الميزة :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع D | وصف |
---|---|---|---|---|
المميزاتDict | ||||
يبدأ | الموتر | int32 | ||
التحدي | الموتر | منطقي | ||
استمرار | المميزاتDict | |||
استمرار / مغازلة | الموتر | float32 | ||
استمرار/identity_attack | الموتر | float32 | ||
استمرار / إهانة | الموتر | float32 | ||
استمرار / الألفاظ النابية | الموتر | float32 | ||
استمرار/severe_تسممية | الموتر | float32 | ||
استمرار/explicit جنسيا | الموتر | float32 | ||
استمرار/النص | نص | خيط | ||
استمرار / التهديد | الموتر | float32 | ||
استمرار / سمية | الموتر | float32 | ||
نهاية | الموتر | int32 | ||
اسم الملف | نص | خيط | ||
اِسْتَدْعَى | المميزاتDict | |||
موجه / مغازلة | الموتر | float32 | ||
موجه/identity_attack | الموتر | float32 | ||
موجه / إهانة | الموتر | float32 | ||
موجه / الألفاظ النابية | الموتر | float32 | ||
موجه/severe_تسممية | الموتر | float32 | ||
موجه/explicit_explicit | الموتر | float32 | ||
موجه/نص | نص | خيط | ||
موجه/تهديد | الموتر | float32 | ||
موجه/سمية | الموتر | float32 |
المفاتيح الخاضعة للإشراف (راجع
as_supervised
doc ):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}