বাস্তব_বিষাক্ততা_প্রম্পট

  • বর্ণনা :

রিয়েল টক্সিসিটি প্রম্পটস: ভাষার মডেলগুলিতে নিউরাল টক্সিক অবক্ষয়ের মূল্যায়ন

RealToxicityPrompts হল বিভিন্ন বিষাক্ততার ইংরেজি প্রম্পট (বিশেষভাবে বাক্যের শুরু) এর একটি সংগ্রহ। এই প্রম্পটগুলি একটি অটোরিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলের (যেমন GPT-2) প্রসঙ্গ হিসাবে দেওয়া এবং সম্পূর্ণতা তৈরি করার জন্য ব্যবহৃত হয়।

আরো বিস্তারিত মূল কাগজে উপস্থাপন করা হয়.

বিভক্ত উদাহরণ
'train' 99,442
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'begin': int32,
    'challenging': bool,
    'continuation': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
    'end': int32,
    'filename': Text(shape=(), dtype=string),
    'prompt': FeaturesDict({
        'flirtation': float32,
        'identity_attack': float32,
        'insult': float32,
        'profanity': float32,
        'severe_toxicity': float32,
        'sexually_explicit': float32,
        'text': Text(shape=(), dtype=string),
        'threat': float32,
        'toxicity': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
শুরু টেনসর int32
চ্যালেঞ্জিং টেনসর bool
ধারাবাহিকতা ফিচারসডিক্ট
ধারাবাহিকতা/ফ্লার্টেশন টেনসর float32
ধারাবাহিকতা/পরিচয়_আক্রমণ টেনসর float32
ধারাবাহিকতা/অপমান টেনসর float32
ধারাবাহিকতা/অশ্লীলতা টেনসর float32
ধারাবাহিকতা/গুরুতর_বিষাক্ততা টেনসর float32
ধারাবাহিকতা/যৌন_স্পষ্ট টেনসর float32
ধারাবাহিকতা/পাঠ্য পাঠ্য স্ট্রিং
ধারাবাহিকতা/হুমকি টেনসর float32
ধারাবাহিকতা/বিষাক্ততা টেনসর float32
শেষ টেনসর int32
ফাইলের নাম পাঠ্য স্ট্রিং
শীঘ্র ফিচারসডিক্ট
প্রম্পট/ফ্লার্টেশন টেনসর float32
প্রম্পট/পরিচয়_আক্রমণ টেনসর float32
প্রম্পট/অপমান টেনসর float32
প্রম্পট/অশ্লীলতা টেনসর float32
প্রম্পট/গুরুতর_বিষাক্ততা টেনসর float32
prompt/sexually_explicit টেনসর float32
প্রম্পট/টেক্সট পাঠ্য স্ট্রিং
প্রম্পট/হুমকি টেনসর float32
প্রম্পট/বিষাক্ততা টেনসর float32
  • উদ্ধৃতি :
@article{gehman2020realtoxicityprompts,
  title={Realtoxicityprompts: Evaluating neural toxic degeneration in language models},
  author={Gehman, Samuel and Gururangan, Suchin and Sap, Maarten and Choi, Yejin and Smith, Noah A},
  journal={arXiv preprint arXiv:2009.11462},
  year={2020}
}