উত্তর_সমতা

  • বর্ণনা :

উত্তর সমতুল্য ডেটাসেটে SQuAD ডেটাসেটের বিভিন্ন মডেলের মডেল ভবিষ্যদ্বাণীর উপর মানব রেটিং রয়েছে। রেটিংগুলি নির্ধারণ করে যে ভবিষ্যদ্বাণী করা উত্তরটি সোনার উত্তরের 'সমতুল্য' কিনা (প্রশ্ন এবং প্রসঙ্গ উভয়ই বিবেচনায় নিয়ে)।

আরও সুনির্দিষ্টভাবে, 'সমতুল্য' দ্বারা আমরা বলতে চাচ্ছি যে পূর্বাভাসিত উত্তরে অন্তত সোনার উত্তরের মতো একই তথ্য রয়েছে এবং অতিরিক্ত তথ্য যোগ করে না। ডেটাসেটে এর জন্য টীকা রয়েছে: * SQuAD dev-এ BiDAF থেকে ভবিষ্যদ্বাণী * SQuAD dev-এ XLNet থেকে ভবিষ্যদ্বাণী * SQuAD dev-এ লুকের ভবিষ্যদ্বাণী * SQuAD প্রশিক্ষণ, ডেভ এবং পরীক্ষার উদাহরণে আলবার্টের ভবিষ্যদ্বাণী

বিভক্ত উদাহরণ
'ae_dev' ৪,৪৪৬
'ae_test' ৯,৭২৪
'dev_bidaf' 7,522
'dev_luke' 4,590
'dev_xlnet' 7,932
'train' ৯,০৯০
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'candidate': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'gold_index': int32,
    'qid': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'question_1': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_2': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_3': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_4': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'reference': Text(shape=(), dtype=string),
    'score': float32,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
প্রার্থী পাঠ্য স্ট্রিং
প্রসঙ্গ পাঠ্য স্ট্রিং
gold_index টেনসর int32
qid পাঠ্য স্ট্রিং
প্রশ্ন পাঠ্য স্ট্রিং
প্রশ্ন 1 ক্লাসলেবেল int64
প্রশ্ন_২ ক্লাসলেবেল int64
প্রশ্ন_৩ ক্লাসলেবেল int64
প্রশ্ন_৪ ক্লাসলেবেল int64
রেফারেন্স পাঠ্য স্ট্রিং
স্কোর টেনসর float32
  • উদ্ধৃতি :
@article{bulian-etal-2022-tomayto,
      title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},
      author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},
      year={2022},
      eprint={2202.07654},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}