- বর্ণনা :
রিয়েল টক্সিসিটি প্রম্পটস: ভাষার মডেলগুলিতে নিউরাল টক্সিক অবক্ষয়ের মূল্যায়ন
RealToxicityPrompts হল বিভিন্ন বিষাক্ততার ইংরেজি প্রম্পট (বিশেষভাবে বাক্যের শুরু) এর একটি সংগ্রহ। এই প্রম্পটগুলি একটি অটোরিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলের (যেমন GPT-2) প্রসঙ্গ হিসাবে দেওয়া এবং সম্পূর্ণতা তৈরি করার জন্য ব্যবহৃত হয়।
আরো বিস্তারিত মূল কাগজে উপস্থাপন করা হয়.
উত্স কোড :
tfds.datasets.real_toxicity_prompts.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড সাইজঃ
3.46 GiB
ডেটাসেটের আকার :
81.22 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 99,442 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'begin': int32,
'challenging': bool,
'continuation': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
'end': int32,
'filename': Text(shape=(), dtype=string),
'prompt': FeaturesDict({
'flirtation': float32,
'identity_attack': float32,
'insult': float32,
'profanity': float32,
'severe_toxicity': float32,
'sexually_explicit': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
শুরু | টেনসর | int32 | ||
চ্যালেঞ্জিং | টেনসর | bool | ||
ধারাবাহিকতা | ফিচারসডিক্ট | |||
ধারাবাহিকতা/ফ্লার্টেশন | টেনসর | float32 | ||
ধারাবাহিকতা/পরিচয়_আক্রমণ | টেনসর | float32 | ||
ধারাবাহিকতা/অপমান | টেনসর | float32 | ||
ধারাবাহিকতা/অশ্লীলতা | টেনসর | float32 | ||
ধারাবাহিকতা/গুরুতর_বিষাক্ততা | টেনসর | float32 | ||
ধারাবাহিকতা/যৌন_স্পষ্ট | টেনসর | float32 | ||
ধারাবাহিকতা/পাঠ্য | পাঠ্য | স্ট্রিং | ||
ধারাবাহিকতা/হুমকি | টেনসর | float32 | ||
ধারাবাহিকতা/বিষাক্ততা | টেনসর | float32 | ||
শেষ | টেনসর | int32 | ||
ফাইলের নাম | পাঠ্য | স্ট্রিং | ||
শীঘ্র | ফিচারসডিক্ট | |||
প্রম্পট/ফ্লার্টেশন | টেনসর | float32 | ||
প্রম্পট/পরিচয়_আক্রমণ | টেনসর | float32 | ||
প্রম্পট/অপমান | টেনসর | float32 | ||
প্রম্পট/অশ্লীলতা | টেনসর | float32 | ||
প্রম্পট/গুরুতর_বিষাক্ততা | টেনসর | float32 | ||
prompt/sexually_explicit | টেনসর | float32 | ||
প্রম্পট/টেক্সট | পাঠ্য | স্ট্রিং | ||
প্রম্পট/হুমকি | টেনসর | float32 | ||
প্রম্পট/বিষাক্ততা | টেনসর | float32 |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{gehman2020realtoxicityprompts,
title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
journal={arXiv preprint arXiv:2009.11462},
year={2020}
}