- الوصف :
TyDi QA هو سؤال يجيب على مجموعة بيانات تغطي 11 لغة متنوعة نمطياً مع 204 ألف زوج من الأسئلة والأجوبة. تتنوع لغات TyDi QA فيما يتعلق بتصنيفها - مجموعة الميزات اللغوية التي تعبر عنها كل لغة - بحيث نتوقع أن يتم تعميم النماذج التي تعمل بشكل جيد في هذه المجموعة عبر عدد كبير من اللغات في العالم. يحتوي على ظواهر لغوية لا توجد في مجموعات اللغة الإنجليزية فقط. لتوفير مهمة البحث عن المعلومات الواقعية وتجنب التأثيرات الأولية ، تتم كتابة الأسئلة من قبل الأشخاص الذين يرغبون في معرفة الإجابة ، ولكن لا يعرفون الإجابة حتى الآن ، (على عكس SQuAD وتوابعه) ويتم جمع البيانات مباشرة في كل لغة بدون استخدام الترجمة (على عكس MLQA و XQuAD).
تقسيمات التدريب:
"تدريب": هذه هي مهمة GoldP من ورقة TyDi QA الأصلية [ https://arxiv.org/abs/2003.05002 ] التي تحتوي على بيانات تدريب مصنفة باللغة الأصلية.
'translate-train- *': هذه التقسيمات هي الترجمات الآلية من الإنجليزية إلى كل لغة هدف مستخدمة في خطوط الأساس المترجمة في ورقة XTREME [ https://arxiv.org/abs/2003.11080 ]. يتجاهل هذا عن قصد بيانات تدريب TyDiQA-GoldP غير الإنجليزية لمحاكاة سيناريو تعلم النقل حيث لا تتوفر بيانات اللغة الأصلية ويجب أن يعتمد منشئو النظام على البيانات الإنجليزية المصنفة بالإضافة إلى أنظمة الترجمة الآلية الحالية.
عادة ، يجب أن تستخدم إما القطار أو تقسيم القطار المترجم ، ولكن ليس كلاهما.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
وصف التهيئة : مهمة الممر الذهبي (GoldP) ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
الصفحة الرئيسية : https://github.com/google-research-datasets/tydiqa
كود المصدر :
tfds.question_answering.TydiQA
إصدارات :
-
3.0.0
(افتراضي): يعمل على إصلاح المشكلة المتعلقة بعدد من الأمثلة حيث تكون فترات الإجابة غير محاذاة بسبب إزالة سياق المساحة البيضاء. يؤثر هذا التغيير على ما يقرب من 25٪ من أمثلة القطار والتطوير.
-
حجم التحميل :
121.30 MiB
حجم مجموعة البيانات :
98.35 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 49881 |
'translate-train-ar' | 3،661 |
'translate-train-bn' | 3585 |
'translate-train-fi' | 3،670 |
'translate-train-id' | 3،667 |
'translate-train-ko' | 3،607 |
'translate-train-ru' | 3،394 |
'translate-train-sw' | 3،622 |
'translate-train-te' | 3،658 |
'validation' | 5،077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- هيكل الميزة :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
الإجابات | تسلسل | |||
الإجابات / answer_start | موتر | int32 | ||
الإجابات / النص | نص | سلسلة | ||
سياق الكلام | نص | سلسلة | ||
هوية شخصية | موتر | سلسلة | ||
سؤال | نص | سلسلة | ||
لقب | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}