- বর্ণনা :
ASQA হল প্রথম দীর্ঘ-ফর্মের প্রশ্নের উত্তর দেওয়ার ডেটাসেট যা অস্পষ্ট ফ্যাক্টয়েড প্রশ্নগুলিতে ফোকাস করে। পূর্ববর্তী লং-ফর্ম উত্তর ডেটাসেট থেকে ভিন্ন, প্রতিটি প্রশ্ন লং-ফর্ম উত্তর এবং উত্তোলনমূলক প্রশ্ন-উত্তর জোড়া দিয়ে টীকা করা হয়, যেগুলি উত্পন্ন উত্তরণ দ্বারা উত্তরযোগ্য হওয়া উচিত। একটি উৎপন্ন দীর্ঘ-ফর্ম উত্তর ROUGE এবং QA উভয় নির্ভুলতা ব্যবহার করে মূল্যায়ন করা হবে। আমরা দেখিয়েছি যে এই মূল্যায়ন মেট্রিকগুলি মানুষের বিচারের সাথে ভালভাবে সম্পর্কিত। এই সংগ্রহস্থলে আমরা মূল্যায়ন কোড সহ ASQA ডেটাসেট প্রকাশ করি: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
হোমপেজ : https://github.com/google-research/language/tree/master/language/asqa
সোর্স কোড :
tfds.datasets.asqa.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ। -
2.0.0
: নমুনা আইডি int32 (ওভারফ্লোয়িং) থেকে int64-এ যায়।
-
ডাউনলোড সাইজ :
17.86 MiB
ডেটাসেটের আকার :
14.50 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'dev' | 948 |
'train' | 4,353 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অস্পষ্ট_প্রশ্ন | পাঠ্য | স্ট্রিং | AmbigQA থেকে দ্ব্যর্থহীন প্রশ্ন। | |
টীকা | সিকোয়েন্স | ASQA টীকাকারদের দ্বারা নির্মিত অস্পষ্ট প্রশ্নের দীর্ঘ-ফর্মের উত্তর। | ||
টীকা/জ্ঞান | সিকোয়েন্স | অতিরিক্ত জ্ঞান টুকরা তালিকা. | ||
টীকা/জ্ঞান/কন্টেন্ট | পাঠ্য | স্ট্রিং | উইকিপিডিয়া থেকে একটি উত্তরণ. | |
টীকা/জ্ঞান/উইকিপৃষ্ঠা | পাঠ্য | স্ট্রিং | উইকিপিডিয়া পৃষ্ঠার শিরোনামটি থেকে নেওয়া হয়েছে। | |
টীকা/দীর্ঘ_উত্তর | পাঠ্য | স্ট্রিং | টীকা। | |
qa_জোড়া | সিকোয়েন্স | AmbigQA থেকে প্রশ্নোত্তর জোড়া যা দ্ব্যর্থতা নিরসন করার জন্য ব্যবহৃত হয়। | ||
qa_pairs/প্রসঙ্গ | পাঠ্য | স্ট্রিং | অতিরিক্ত প্রসঙ্গ প্রদান করা হয়েছে. | |
qa_pairs/প্রশ্ন | পাঠ্য | স্ট্রিং | ||
qa_pairs/short_answers | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং | AmbigQA থেকে সংক্ষিপ্ত উত্তরের তালিকা। |
qa_pairs/উইকিপৃষ্ঠা | পাঠ্য | স্ট্রিং | উইকিপিডিয়া পাতার শিরোনাম থেকে অতিরিক্ত প্রসঙ্গটি নেওয়া হয়েছে। | |
নমুনা_আইডি | টেনসর | int64 | ||
উইকিপেজ | সিকোয়েন্স | AmbigQA টীকাকারদের দ্বারা পরিদর্শন করা উইকিপিডিয়া পৃষ্ঠাগুলির তালিকা৷ | ||
উইকিপেজ/শিরোনাম | পাঠ্য | স্ট্রিং | উইকিপিডিয়া পৃষ্ঠার শিরোনাম। | |
wikipages/url | পাঠ্য | স্ট্রিং | উইকিপিডিয়া পাতার লিঙ্ক। |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}