صمغ ممتاز

  • الوصف :

SuperGLUE ( https://super.gluebenchmark.com/ ) هو معيار جديد تم تصميمه بعد GLUE مع مجموعة جديدة من مهام فهم اللغة الأكثر صعوبة ، والموارد المحسنة ، ولوحة المتصدرين العامة الجديدة.

super_glue / boolq (التكوين الافتراضي)

  • وصف التكوين : BoolQ (Boolean Questions، Clark et al.، 2019a) هي مهمة لضمان الجودة حيث يتكون كل مثال من مقطع قصير وسؤال بنعم / لا حول المقطع. يتم تقديم الأسئلة بشكل مجهول وغير مرغوب فيه من قبل مستخدمي محرك بحث Google ، وبعد ذلك يتم إقرانها بفقرة من مقالة Wikipedia تحتوي على الإجابة. بعد العمل الأصلي ، نقوم بالتقييم بدقة.

  • الصفحة الرئيسية : https://github.com/google-research-datasets/boolean-questions

  • حجم التحميل : 3.93 MiB

  • حجم مجموعة البيانات : 10.75 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 3،245
'train' 9427
'validation' 3270
  • هيكل الميزة :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرف موتر int32
ضع الكلمة المناسبة ClassLabel int64
الممر نص سلسلة
سؤال نص سلسلة
  • الاقتباس :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / cb

  • وصف التكوين : The CommitmentBank (De Marneffe et al. ، 2019) عبارة عن مجموعة من النصوص القصيرة تحتوي فيها جملة واحدة على الأقل على جملة مضمنة. يتم شرح كل من هذه الجمل المضمنة بالدرجة التي نتوقع بها أن الشخص الذي كتب النص ملتزم بحقيقة الجملة. تم تأطير المهمة الناتجة على أنها استدلالات نصية من ثلاث فئات على أمثلة مأخوذة من صحيفة وول ستريت جورنال ، ورواية من المجموعة الوطنية البريطانية ، و Switchboard. يتكون كل مثال من فرضية تحتوي على جملة مضمنة والفرضية المقابلة هي استخراج هذا البند. نحن نستخدم مجموعة فرعية من البيانات التي لديها اتفاق بين المعلقين أعلى من 0.85. البيانات غير متوازنة (عدد أقل نسبيًا من الأمثلة المحايدة) ، لذلك نقوم بالتقييم باستخدام الدقة و F1 ، حيث بالنسبة للفئات المتعددة F1 نحسب المتوسط ​​غير المرجح للفئة F1 لكل فئة.

  • الصفحة الرئيسية : https://github.com/mcdm/CommitmentBank

  • حجم التحميل : 73.71 KiB

  • حجم مجموعة البيانات : 229.28 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 250
'train' 250
'validation' 56
  • هيكل الميزة :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
فرضية نص سلسلة
معرف موتر int32
ضع الكلمة المناسبة ClassLabel int64
فرضية نص سلسلة
  • الاقتباس :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / كأس

  • وصف التكوين : مجموعة البيانات "اختيار البدائل المعقولة" (COPA، Roemmele et al.، 2011) هي مهمة تفكير سببية يتم فيها إعطاء النظام جملة افتراضية وبديلين محتملين. يجب أن يختار النظام البديل الذي له علاقة سببية معقولة أكثر مع المقدمة. تضمن الطريقة المستخدمة لبناء البدائل أن المهمة تتطلب تفكيرًا سببيًا لحلها. تتعامل الأمثلة إما مع الأسباب المحتملة البديلة أو الآثار المحتملة البديلة للجملة الافتتاحية ، مصحوبة بسؤال بسيط يزيل الغموض بين نوعي المثال للنموذج. جميع الأمثلة مصنوعة يدويًا وتركز على موضوعات من مدونات عبر الإنترنت وموسوعة متعلقة بالتصوير الفوتوغرافي. باتباع توصيات المؤلفين ، نقوم بتقييم استخدام الدقة.

  • الصفحة الرئيسية : http://people.ict.usc.edu/~gordon/copa.html

  • حجم التحميل : 42.96 KiB

  • حجم مجموعة البيانات : 196.00 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 500
'train' 400
'validation' 100
  • هيكل الميزة :
FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
اختيار 1 نص سلسلة
اختيار 2 نص سلسلة
معرف موتر int32
ضع الكلمة المناسبة ClassLabel int64
فرضية نص سلسلة
سؤال نص سلسلة
  • الاقتباس :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / مولتيرك

  • وصف التكوين : مجموعة بيانات الاستيعاب القرائي متعدد الجمل (MultiRC، Khashabi et al.، 2018) هي مهمة الإجابة على أسئلة صواب / خطأ. يتكون كل مثال من فقرة سياق ، وسؤال حول تلك الفقرة ، وقائمة بالإجابات المحتملة على هذا السؤال والتي يجب تصنيفها على أنها صحيحة أو خاطئة. تعد الإجابة عن الأسئلة (QA) مشكلة شائعة في العديد من مجموعات البيانات. نستخدم MultiRC نظرًا لعدد من الخصائص المرغوبة: (1) يمكن أن يكون لكل سؤال عدة إجابات صحيحة محتملة ، لذلك يجب تقييم كل زوج من الأسئلة والأجوبة بشكل مستقل عن الأزواج الأخرى ، (2) تم تصميم الأسئلة بحيث تتطلب الإجابة عن كل سؤال استخلاص الحقائق من جمل سياق متعددة ، و (3) تنسيق زوج السؤال والإجابة يتطابق بشكل وثيق مع واجهة برمجة التطبيقات لمهام SuperGLUE الأخرى أكثر من QA الاستخراجي القائم على الامتداد. الفقرات مأخوذة من سبعة مجالات بما في ذلك الأخبار والخيال والنص التاريخي.

  • الصفحة الرئيسية https://cogcomp.org/multirc/

  • حجم التحميل : 1.06 MiB

  • حجم مجموعة البيانات : 70.39 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 9،693
'train' 27243
'validation' 4848
  • هيكل الميزة :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
إجابه نص سلسلة
معرف الميزات
معرف / إجابة موتر int32
idx / الفقرة موتر int32
معرف / سؤال موتر int32
ضع الكلمة المناسبة ClassLabel int64
فقرة نص سلسلة
سؤال نص سلسلة
  • الاقتباس :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / سجل

  • وصف التهيئة : (القراءة والفهم مع مجموعة بيانات استدلال العموم ، Zhang et al. ، 2018) هي مهمة سؤال وجواب متعددة الاختيارات. يتكون كل مثال من مقال إخباري وسؤال بنمط Cloze حول المقالة التي يتم إخفاء كيان واحد فيها. يجب أن يتنبأ النظام بالكيان المقنع من قائمة معينة من الكيانات المحتملة في المقطع المقدم ، حيث يمكن التعبير عن نفس الكيان باستخدام عدة أشكال سطحية مختلفة ، وكلها تعتبر صحيحة. المقالات مأخوذة من سي إن إن وديلي ميل. بعد العمل الأصلي ، نقوم بالتقييم بحد أقصى (على جميع الإشارات) على مستوى الرمز المميز F1 والمطابقة التامة (EM).

  • الصفحة الرئيسية : https://sheng-z.github.io/ReCoRD-explorer/

  • حجم التحميل : 49.36 MiB

  • حجم مجموعة البيانات : 166.40 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'test' 10000
'train' 100730
'validation' 10000
  • هيكل الميزة :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
الإجابات تسلسل (نص) (لا أحد،) سلسلة
جهات تسلسل (نص) (لا أحد،) سلسلة
معرف الميزات
معرف / مرور موتر int32
معرف / الاستعلام موتر int32
الممر نص سلسلة
استفسار نص سلسلة
  • الاقتباس :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / rte

  • وصف التكوين : تأتي مجموعات بيانات التعرف على الاستنتاج النصي (RTE) من سلسلة من المسابقات السنوية حول الاستدلال النصي ، مشكلة التنبؤ بما إذا كانت جملة فرضية معينة تستلزم جملة فرضية معينة (المعروف أيضًا باسم الاستدلال اللغوي الطبيعي ، NLI). تم تضمين RTE سابقًا في GLUE ، ونستخدم نفس البيانات والتنسيق كما في السابق: نقوم بدمج البيانات من RTE1 (Dagan et al. ، 2006) ، RTE2 (Bar Haim et al. ، 2006) ، RTE3 (Giampiccolo et al. ، 2007) ، و RTE5 (بنتيفولي وآخرون ، 2009). يتم دمج جميع مجموعات البيانات وتحويلها إلى تصنيف من فئتين: الاستنتاج وليس التفريغ. من بين جميع مهام GLUE ، كانت RTE من بين أولئك الذين استفادوا من نقل التعلم أكثر من غيرهم ، حيث قفزوا من الأداء شبه العشوائي (~ 56٪) في وقت إطلاق GLUE إلى دقة 85٪ (Liu et al. ، 2019c) في وقت الكتابة. ومع ذلك ، نظرًا للفجوة المكونة من ثماني نقاط فيما يتعلق بالأداء البشري ، لم يتم حل المهمة بعد بواسطة الآلات ، ونتوقع أن يكون من الصعب إغلاق الفجوة المتبقية.

  • الصفحة الرئيسية : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • حجم التحميل : 733.32 KiB

  • حجم مجموعة البيانات : 2.15 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 3000
'train' 2490
'validation' 277
  • هيكل الميزة :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
فرضية نص سلسلة
معرف موتر int32
ضع الكلمة المناسبة ClassLabel int64
فرضية نص سلسلة
  • الاقتباس :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / WIC

  • وصف التهيئة : تدعم مجموعة البيانات Word-in-Context (WiC و Pilehvar و Camacho-Collados ، 2019) مهمة توضيح معنى الكلمة باعتبارها تصنيفًا ثنائيًا على أزواج الجمل. بالنظر إلى جملتين وكلمة متعددة المعاني (معنى غامضة) تظهر في كلتا الجملتين ، فإن المهمة هي تحديد ما إذا كانت الكلمة تستخدم بنفس المعنى في كلتا الجملتين. الجمل مأخوذة من WordNet (Miller ، 1995) ، VerbNet (Schuler ، 2005) ، و Wiktionary. نتابع العمل الأصلي ونقيمه بدقة.

  • الصفحة الرئيسية : https://pilehvar.github.io/wic/

  • حجم التحميل : 386.93 KiB

  • حجم مجموعة البيانات : 1.67 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 1400
'train' 5428
'validation' 638
  • هيكل الميزة :
FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
نهاية 1 موتر int32
نهاية 2 موتر int32
معرف موتر int32
ضع الكلمة المناسبة ClassLabel int64
الجملة 1 نص سلسلة
الجملة 2 نص سلسلة
بداية 1 موتر int32
بداية 2 موتر int32
كلمة نص سلسلة
  • الاقتباس :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc

  • وصف التكوين : The Winograd Schema Challenge (WSC، Levesque et al.، 2012) عبارة عن مهمة لفهم القراءة حيث يجب على النظام قراءة جملة بضمير وتحديد المرجع لهذا الضمير من قائمة الاختيارات. نظرًا لصعوبة هذه المهمة وما زالت المساحة العلوية متبقية ، فقد قمنا بتضمين WSC في SuperGLUE وأعدنا صياغة مجموعة البيانات في شكلها المرجعي. يتم عرض المهمة على أنها مشكلة تصنيف ثنائية ، على عكس الاختيار المتعدد N ، من أجل عزل قدرة النموذج على فهم الروابط المرجعية داخل جملة بدلاً من الاستراتيجيات الأخرى المختلفة التي قد تلعب دورًا في ظروف الاختيار من متعدد. مع أخذ ذلك في الاعتبار ، قمنا بإنشاء تقسيم مع فئة أغلبية سلبية 65٪ في مجموعة التحقق ، مما يعكس توزيع مجموعة الاختبار المخفية ، والفصل السلبي 52٪ في مجموعة التدريب. تم استقاء أمثلة التدريب والتحقق من الصحة من مجموعة بيانات Winograd Schema الأصلية (Levesque وآخرون ، 2012) ، بالإضافة إلى تلك التي وزعتها منظمة Commonsense Reasoning التابعة لها. تم اشتقاق أمثلة الاختبار من كتب الخيال وقد تمت مشاركتها معنا من قبل مؤلفي مجموعة البيانات الأصلية. في السابق ، كان هناك نسخة من إعادة صياغة WSC كـ NLI كما هو مضمن في GLUE ، والمعروف باسم WNLI. لم يتم إحراز تقدم كبير في WNLI ، حيث اختار العديد من التقديمات تقديم توقعات فئة الأغلبية فقط. تم جعل WNLI صعبًا بشكل خاص بسبب الانقسام العدائي للقطار / التطوير: ظهرت أحيانًا الجمل الأولية التي ظهرت في مجموعة التدريب في مجموعة التطوير بفرضية مختلفة وتسمية مقلوبة. إذا حفظ النظام مجموعة التدريب دون التعميم بشكل هادف ، الأمر الذي كان سهلاً نظرًا لصغر حجم مجموعة التدريب ، فقد يكون أداءه أقل بكثير من فرصة مجموعة التطوير. نقوم بإزالة هذا التصميم العدائي في إصدار SuperGLUE من WSC من خلال ضمان عدم مشاركة أي جمل بين مجموعات التدريب والتحقق والاختبار.

ومع ذلك ، تأتي مجموعات التحقق من الصحة والاختبار من مجالات مختلفة ، مع مجموعة التحقق من الصحة التي تتكون من أمثلة غامضة مثل أن تغيير كلمة عبارة واحدة غير اسمية سيغير تبعيات المرجع في الجملة. تتكون مجموعة الاختبار فقط من أمثلة أكثر وضوحًا ، مع عدد كبير من العبارات الاسمية (وبالتالي المزيد من الخيارات للنموذج) ، ولكنها منخفضة أو معدومة الغموض.

انشق، مزق أمثلة
'test' 146
'train' 554
'validation' 104
  • هيكل الميزة :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرف موتر int32
ضع الكلمة المناسبة ClassLabel int64
span1_index موتر int32
span1_text نص سلسلة
span2_index موتر int32
span2_text نص سلسلة
نص نص سلسلة
  • الاقتباس :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc. ثابت

  • وصف التكوين : The Winograd Schema Challenge (WSC، Levesque et al.، 2012) عبارة عن مهمة لفهم القراءة حيث يجب على النظام قراءة جملة بضمير وتحديد المرجع لهذا الضمير من قائمة الاختيارات. نظرًا لصعوبة هذه المهمة وما زالت المساحة العلوية متبقية ، فقد قمنا بتضمين WSC في SuperGLUE وأعدنا صياغة مجموعة البيانات في شكلها المرجعي. يتم عرض المهمة على أنها مشكلة تصنيف ثنائية ، على عكس الاختيار المتعدد N ، من أجل عزل قدرة النموذج على فهم الروابط المرجعية داخل جملة بدلاً من الاستراتيجيات الأخرى المختلفة التي قد تلعب دورًا في ظروف الاختيار من متعدد. مع أخذ ذلك في الاعتبار ، قمنا بإنشاء تقسيم مع فئة أغلبية سلبية 65٪ في مجموعة التحقق ، مما يعكس توزيع مجموعة الاختبار المخفية ، والفصل السلبي 52٪ في مجموعة التدريب. تم استقاء أمثلة التدريب والتحقق من الصحة من مجموعة بيانات Winograd Schema الأصلية (Levesque وآخرون ، 2012) ، بالإضافة إلى تلك التي وزعتها منظمة Commonsense Reasoning التابعة لها. تم اشتقاق أمثلة الاختبار من كتب الخيال وقد تمت مشاركتها معنا من قبل مؤلفي مجموعة البيانات الأصلية. في السابق ، كان هناك نسخة من إعادة صياغة WSC كـ NLI كما هو مضمن في GLUE ، والمعروف باسم WNLI. لم يتم إحراز تقدم كبير في WNLI ، حيث اختار العديد من التقديمات تقديم توقعات فئة الأغلبية فقط. تم جعل WNLI صعبًا بشكل خاص بسبب الانقسام العدائي للقطار / التطوير: ظهرت أحيانًا الجمل الأولية التي ظهرت في مجموعة التدريب في مجموعة التطوير بفرضية مختلفة وتسمية مقلوبة. إذا حفظ النظام مجموعة التدريب دون التعميم بشكل هادف ، الأمر الذي كان سهلاً نظرًا لصغر حجم مجموعة التدريب ، فقد يكون أداءه أقل بكثير من فرصة مجموعة التطوير. نقوم بإزالة هذا التصميم العدائي في إصدار SuperGLUE من WSC من خلال ضمان عدم مشاركة أي جمل بين مجموعات التدريب والتحقق والاختبار.

ومع ذلك ، تأتي مجموعات التحقق من الصحة والاختبار من مجالات مختلفة ، مع مجموعة التحقق من الصحة التي تتكون من أمثلة غامضة مثل أن تغيير كلمة عبارة واحدة غير اسمية سيغير تبعيات المرجع في الجملة. تتكون مجموعة الاختبار فقط من أمثلة أكثر وضوحًا ، مع عدد كبير من العبارات الاسمية (وبالتالي المزيد من الخيارات للنموذج) ، ولكنها منخفضة أو معدومة الغموض.

يعمل هذا الإصدار على إصلاح المشكلات التي لا تكون فيها الامتدادات في الواقع سلاسل فرعية للنص.

انشق، مزق أمثلة
'test' 146
'train' 554
'validation' 104
  • هيكل الميزة :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرف موتر int32
ضع الكلمة المناسبة ClassLabel int64
span1_index موتر int32
span1_text نص سلسلة
span2_index موتر int32
span2_text نص سلسلة
نص نص سلسلة
  • الاقتباس :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axb

  • وصف التكوين : مجموعة بيانات تشخيصية من صنع الخبراء تختبر تلقائيًا نماذج لمجموعة واسعة من المعرفة اللغوية والعقلانية والعالمية. كل مثال في هذا التشخيص ذو التغطية الواسعة هو زوج جملة مُصنَّف بعلاقة ضمنية ثلاثية الاتجاهات (استنتاج ، محايد ، أو تناقض) وموسومة بعلامات تشير إلى الظواهر التي تميز العلاقة بين الجملتين. يجب أن تتضمن عمليات الإرسال إلى لوحة المتصدرين GLUE تنبؤات من مصنف MultiNLI الخاص بالمرسل في مجموعة البيانات التشخيصية ، وتم عرض تحليلات النتائج جنبًا إلى جنب مع لوحة المتصدرين الرئيسية. نظرًا لأن مهمة التشخيص ذات التغطية الواسعة قد ثبت أنها صعبة بالنسبة لأفضل الموديلات ، فإننا نحتفظ بها في SuperGLUE. ومع ذلك ، نظرًا لأن MultiNLI ليس جزءًا من SuperGLUE ، فإننا ننهار التناقض والحيادية في تسمية واحدة not_entailment ، ونطلب أن تتضمن عمليات الإرسال تنبؤات على المجموعة الناتجة من النموذج المستخدم لمهمة RTE.

  • الصفحة الرئيسية : https://gluebenchmark.com/diagnostics

  • حجم التحميل : 33.15 KiB

  • حجم مجموعة البيانات : 290.53 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،104
  • هيكل الميزة :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرف موتر int32
ضع الكلمة المناسبة ClassLabel int64
الجملة 1 نص سلسلة
الجملة 2 نص سلسلة
  • الاقتباس :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / AXG

  • وصف التكوين : تم تصميم Winogender لقياس التحيز بين الجنسين في أنظمة دقة المرجع. نستخدم مجموعة الاستدلال اللغوي الطبيعية المتنوعة (DNC؛ Poliak et al.، 2018) التي تصور Winogender كمهمة نصية. يتكون كل مثال من جملة افتراضية مع ضمير ذكر أو أنثى وفرضية تعطي سابقة محتملة للضمير. تحدث الأمثلة في أزواج صغيرة ، حيث يكون الاختلاف الوحيد بين المثال وزوجها هو جنس الضمير في المقدمة. يُقاس الأداء على Winogender بكل من الدقة ودرجة التكافؤ بين الجنسين: النسبة المئوية للأزواج الدنيا التي تتماثل فيها التوقعات. نلاحظ أن النظام يمكن أن يحصل بشكل تافه على درجة مثالية للتكافؤ بين الجنسين من خلال تخمين نفس الفئة لجميع الأمثلة ، لذا فإن درجة التكافؤ بين الجنسين العالية لا معنى لها ما لم تكن مصحوبة بدقة عالية. كاختبار تشخيصي للتحيز الجنساني ، نرى أن المخططات ذات قيمة تنبؤية إيجابية عالية وقيمة تنبؤية سلبية منخفضة ؛ أي أنها قد تثبت وجود تحيز جنساني في نظام ما ، لكنها لا تثبت غيابه.

  • الصفحة الرئيسية : https://github.com/rudinger/winogender-schemas

  • حجم التحميل : 10.17 KiB

  • حجم مجموعة البيانات : 69.75 KiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 356
  • هيكل الميزة :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
فرضية نص سلسلة
معرف موتر int32
ضع الكلمة المناسبة ClassLabel int64
فرضية نص سلسلة
  • الاقتباس :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.