- বর্ণনা :
SuperGLUE ( https://super.gluebenchmark.com/ ) হল একটি নতুন বেঞ্চমার্ক যা GLUE-এর পরে স্টাইল করা আরও কঠিন ভাষা বোঝার কাজ, উন্নত সংস্থান এবং একটি নতুন পাবলিক লিডারবোর্ড সহ।
সোর্স কোড :
tfds.text.SuperGlue
সংস্করণ :
-
1.0.2
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
super_glue/boolq (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : BoolQ (বুলিয়ান প্রশ্ন, ক্লার্ক এট আল।, 2019a) হল একটি QA টাস্ক যেখানে প্রতিটি উদাহরণে একটি ছোট প্যাসেজ এবং প্যাসেজ সম্পর্কে হ্যাঁ/না প্রশ্ন থাকে। প্রশ্নগুলি Google সার্চ ইঞ্জিনের ব্যবহারকারীদের দ্বারা বেনামে এবং অযাচিতভাবে প্রদান করা হয়, এবং পরে উত্তর সম্বলিত উইকিপিডিয়া নিবন্ধ থেকে একটি অনুচ্ছেদের সাথে যুক্ত করা হয়। মূল কাজ অনুসরণ করে, আমরা নির্ভুলতার সাথে মূল্যায়ন করি।
হোমপেজ : https://github.com/google-research-datasets/boolean-questions
ডাউনলোড সাইজ :
3.93 MiB
ডেটাসেটের আকার :
10.75 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 3,245 |
'train' | 9,427 |
'validation' | 3,270 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'passage': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
উত্তরণ | পাঠ্য | স্ট্রিং | ||
প্রশ্ন | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{clark2019boolq,
title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
booktitle={NAACL},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
সুপার_গ্লু/সিবি
কনফিগারেশনের বিবরণ : কমিটমেন্টব্যাঙ্ক (ডি মারনেফে এট আল।, 2019) হল সংক্ষিপ্ত টেক্সটের একটি কর্পাস যেখানে অন্তত একটি বাক্যে একটি এমবেডেড ক্লজ রয়েছে। এই এমবেডেড ধারাগুলির প্রত্যেকটি এমন মাত্রার সাথে টীকা করা হয়েছে যেখানে আমরা আশা করি যে যে ব্যক্তি পাঠটি লিখেছেন তিনি ধারাটির সত্যতার প্রতি প্রতিশ্রুতিবদ্ধ। ওয়াল স্ট্রিট জার্নাল, ব্রিটিশ ন্যাশনাল কর্পাস এবং সুইচবোর্ড থেকে ফিকশন থেকে প্রাপ্ত উদাহরণগুলির উপর থ্রি-ক্লাস টেক্সচুয়াল এনটেইলমেন্ট হিসাবে তৈরি করা কাজটি। প্রতিটি উদাহরণে একটি এমবেডেড ক্লজ সম্বলিত একটি ভিত্তি থাকে এবং সংশ্লিষ্ট হাইপোথিসিস হল সেই ধারাটির নিষ্কাশন। আমরা ডেটার একটি উপসেট ব্যবহার করি যার 0.85-এর উপরে আন্তঃ টীকাকারী চুক্তি ছিল। ডেটা ভারসাম্যহীন (তুলনামূলকভাবে কম নিরপেক্ষ উদাহরণ), তাই আমরা নির্ভুলতা এবং F1 ব্যবহার করে মূল্যায়ন করি, যেখানে বহু-শ্রেণীর F1-এর জন্য আমরা প্রতি শ্রেণীতে F1-এর ওজনহীন গড় গণনা করি।
ডাউনলোড
73.71 KiB
ডেটাসেটের আকার :
229.28 KiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 250 |
'train' | 250 |
'validation' | 56 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'premise': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অনুমান | পাঠ্য | স্ট্রিং | ||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
ভিত্তি | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{de marneff_simons_tonhauser_2019,
title={The CommitmentBank: Investigating projection in naturally occurring discourse},
journal={proceedings of Sinn und Bedeutung 23},
author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
সুপার_গ্লু/কোপা
কনফিগারেশনের বিবরণ : দ্য চয়েস অফ প্লেজিবল অল্টারনেটিভস (COPA, Roemmele et al., 2011) ডেটাসেট হল একটি কার্যকারণ যুক্তিযুক্ত কাজ যেখানে একটি সিস্টেমকে একটি প্রাথমিক বাক্য এবং দুটি সম্ভাব্য বিকল্প দেওয়া হয়। সিস্টেমটিকে অবশ্যই বিকল্পটি বেছে নিতে হবে যার ভিত্তির সাথে আরও যুক্তিযুক্ত কার্যকারণ সম্পর্ক রয়েছে। বিকল্প নির্মাণের জন্য ব্যবহৃত পদ্ধতিটি নিশ্চিত করে যে কাজটির সমাধান করার জন্য কার্যকারণমূলক যুক্তি প্রয়োজন। উদাহরণগুলি হয় বিকল্প সম্ভাব্য কারণগুলির সাথে মোকাবিলা করে বা ভিত্তি বাক্যের বিকল্প সম্ভাব্য প্রভাবগুলির সাথে মোকাবিলা করে, মডেলের জন্য দুটি দৃষ্টান্তের প্রকারের মধ্যে দ্ব্যর্থহীন একটি সাধারণ প্রশ্ন সহ। সমস্ত উদাহরণ হস্তশিল্প এবং অনলাইন ব্লগ এবং একটি ফটোগ্রাফি-সম্পর্কিত বিশ্বকোষ থেকে বিষয়গুলিতে ফোকাস করা হয়। লেখকদের সুপারিশ অনুসরণ করে, আমরা নির্ভুলতা ব্যবহার করে মূল্যায়ন করি।
ডাউনলোড
42.96 KiB
ডেটাসেটের আকার :
196.00 KiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 500 |
'train' | 400 |
'validation' | 100 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'choice1': Text(shape=(), dtype=string),
'choice2': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
পছন্দ1 | পাঠ্য | স্ট্রিং | ||
পছন্দ2 | পাঠ্য | স্ট্রিং | ||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
ভিত্তি | পাঠ্য | স্ট্রিং | ||
প্রশ্ন | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{roemmele2011choice,
title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
booktitle={2011 AAAI Spring Symposium Series},
year={2011}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
সুপার_গ্লু/মাল্টির্ক
কনফিগারেশনের বিবরণ : মাল্টি-সেন্টেন্স রিডিং কম্প্রিহেনশন ডেটাসেট (MultiRC, Khashabi et al., 2018) একটি সত্য/মিথ্যা প্রশ্ন-উত্তর দেওয়ার কাজ। প্রতিটি উদাহরণে একটি প্রসঙ্গ অনুচ্ছেদ, সেই অনুচ্ছেদ সম্পর্কে একটি প্রশ্ন এবং সেই প্রশ্নের সম্ভাব্য উত্তরগুলির একটি তালিকা থাকে যা সত্য বা মিথ্যা হিসাবে লেবেল করা আবশ্যক। প্রশ্ন-উত্তর (QA) অনেক ডেটাসেটের সাথে একটি জনপ্রিয় সমস্যা। আমরা একাধিক পছন্দসই বৈশিষ্ট্যের কারণে মাল্টিআরসি ব্যবহার করি: (i) প্রতিটি প্রশ্নের একাধিক সম্ভাব্য সঠিক উত্তর থাকতে পারে, তাই প্রতিটি প্রশ্ন-উত্তর জোড়াকে অন্য জোড়া থেকে স্বাধীনভাবে মূল্যায়ন করতে হবে, (ii) প্রশ্নগুলি এমনভাবে ডিজাইন করা হয়েছে যাতে প্রতিটি প্রশ্নের উত্তর দিতে হয় একাধিক প্রসঙ্গ বাক্য থেকে তথ্য অঙ্কন, এবং (iii) প্রশ্ন-উত্তর জোড়া বিন্যাসটি স্প্যান-ভিত্তিক নিষ্কাশনমূলক QA-এর তুলনায় অন্যান্য SuperGLUE কার্যগুলির API-এর সাথে আরও ঘনিষ্ঠভাবে মেলে। অনুচ্ছেদগুলি সংবাদ, কথাসাহিত্য এবং ঐতিহাসিক পাঠ্য সহ সাতটি ডোমেন থেকে আঁকা হয়েছে।
হোমপেজ : https://cogcomp.org/multirc/
ডাউনলোড সাইজ :
1.06 MiB
ডেটাসেটের আকার :
70.39 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৯,৬৯৩ |
'train' | 27,243 |
'validation' | ৪,৮৪৮ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'answer': Text(shape=(), dtype=string),
'idx': FeaturesDict({
'answer': int32,
'paragraph': int32,
'question': int32,
}),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
উত্তর | পাঠ্য | স্ট্রিং | ||
idx | ফিচারসডিক্ট | |||
idx/উত্তর | টেনসর | int32 | ||
idx/অনুচ্ছেদ | টেনসর | int32 | ||
আইডিএক্স/প্রশ্ন | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
অনুচ্ছেদ | পাঠ্য | স্ট্রিং | ||
প্রশ্ন | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{MultiRC2018,
author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
year = {2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
সুপার_গ্লু/রেকর্ড
কনফিগার বিবরণ : (কমনসেন্স রিজনিং ডেটাসেটের সাথে রিডিং কম্প্রিহেনশন, ঝাং এট আল।, 2018) একটি মাল্টিপল-চয়েস QA টাস্ক। প্রতিটি উদাহরণে একটি সংবাদ নিবন্ধ এবং একটি ক্লোজ-স্টাইলের প্রশ্ন থাকে যে নিবন্ধটিতে একটি সত্তাকে মুখোশ করা হয়েছে। সিস্টেমটিকে অবশ্যই প্রদত্ত প্যাসেজে সম্ভাব্য সত্তাগুলির একটি প্রদত্ত তালিকা থেকে মুখোশযুক্ত সত্তার পূর্বাভাস দিতে হবে, যেখানে একই সত্তা একাধিক ভিন্ন পৃষ্ঠ ফর্ম ব্যবহার করে প্রকাশ করা যেতে পারে, যার সবকটিই সঠিক বলে বিবেচিত হয়। নিবন্ধগুলি সিএনএন এবং ডেইলি মেইল থেকে নেওয়া হয়েছে। মূল কাজ অনুসরণ করে, আমরা সর্বোচ্চ (সমস্ত উল্লেখের উপরে) টোকেন-স্তরের F1 এবং সঠিক মিল (EM) দিয়ে মূল্যায়ন করি।
ডাউনলোড সাইজ :
49.36 MiB
ডেটাসেটের আকার :
166.40 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 10,000 |
'train' | 100,730 |
'validation' | 10,000 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'answers': Sequence(Text(shape=(), dtype=string)),
'entities': Sequence(Text(shape=(), dtype=string)),
'idx': FeaturesDict({
'passage': int32,
'query': int32,
}),
'passage': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
উত্তর | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং | |
সত্তা | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং | |
idx | ফিচারসডিক্ট | |||
আইডিএক্স/প্যাসেজ | টেনসর | int32 | ||
idx/query | টেনসর | int32 | ||
উত্তরণ | পাঠ্য | স্ট্রিং | ||
প্রশ্ন | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{zhang2018record,
title={Record: Bridging the gap between human and machine commonsense reading comprehension},
author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
journal={arXiv preprint arXiv:1810.12885},
year={2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
সুপার_গ্লু/আরটিই
কনফিগারেশনের বিবরণ : রিকগনিজিং টেক্সচুয়াল এনটেইলমেন্ট (আরটিই) ডেটাসেটগুলি টেক্সচুয়াল এনটেইলমেন্টের বার্ষিক প্রতিযোগিতার একটি সিরিজ থেকে আসে, একটি প্রদত্ত প্রিমিস বাক্য একটি প্রদত্ত হাইপোথিসিস বাক্য (প্রাকৃতিক ভাষা অনুমান, NLI নামেও পরিচিত) অন্তর্ভুক্ত কিনা তা অনুমান করার সমস্যা। RTE আগে GLUE-তে অন্তর্ভুক্ত ছিল, এবং আমরা আগের মতো একই ডেটা এবং বিন্যাস ব্যবহার করি: আমরা RTE1 (Dagan et al., 2006), RTE2 (বার হাইম এট আল।, 2006), RTE3 (Giampiccolo et al., 2007), এবং RTE5 (Bentivogli et al., 2009)। সমস্ত ডেটাসেট একত্রিত হয় এবং দুই-শ্রেণীর শ্রেণীবিভাগে রূপান্তরিত হয়: entailment এবং not_entailment। GLUE-এর সমস্ত কাজগুলির মধ্যে, RTE তাদের মধ্যে ছিল যারা ট্রান্সফার শেখার মাধ্যমে সবচেয়ে বেশি উপকৃত হয়েছিল, GLUE লঞ্চের সময় 85% নির্ভুলতা (Liu et al., 2019c) কাছাকাছি র্যান্ডম-চান্স পারফরম্যান্স (~56%) থেকে লাফিয়ে লেখার সময়। মানুষের কর্মক্ষমতার সাপেক্ষে আট পয়েন্টের ব্যবধান দেওয়া হলেও, কাজটি এখনও মেশিন দ্বারা সমাধান করা হয়নি, এবং আমরা আশা করি বাকি ব্যবধানটি বন্ধ করা কঠিন হবে।
হোমপেজ : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment
ডাউনলোড
733.32 KiB
ডেটাসেটের আকার :
2.15 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 3,000 |
'train' | 2,490 |
'validation' | 277 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অনুমান | পাঠ্য | স্ট্রিং | ||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
ভিত্তি | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{dagan2005pascal,
title={The PASCAL recognising textual entailment challenge},
author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
booktitle={Machine Learning Challenges Workshop},
pages={177--190},
year={2005},
organization={Springer}
}
@inproceedings{bar2006second,
title={The second pascal recognising textual entailment challenge},
author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
volume={6},
number={1},
pages={6--4},
year={2006},
organization={Venice}
}
@inproceedings{giampiccolo2007third,
title={The third pascal recognizing textual entailment challenge},
author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
pages={1--9},
year={2007},
organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
booktitle={TAC},
year={2009}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wic
কনফিগারেশনের বিবরণ : ওয়ার্ড-ইন-কনটেক্সট (WiC, Pilehvar এবং Camacho-Collados, 2019) ডেটাসেট বাক্য জোড়ার উপর বাইনারি শ্রেণীবিভাগ হিসাবে একটি শব্দ অর্থ দ্ব্যর্থতা নিরসন কাজকে সমর্থন করে। দুটি বাক্য এবং একটি পলিসেমাস (অস্পষ্ট-অস্পষ্ট) শব্দ যা উভয় বাক্যে উপস্থিত হয়, কাজটি হল শব্দটি উভয় বাক্যে একই অর্থে ব্যবহৃত হয়েছে কিনা তা নির্ধারণ করা। বাক্যগুলো WordNet (Miller, 1995), VerbNet (Schuler, 2005), এবং Wiktionary থেকে নেওয়া হয়েছে। আমরা মূল কাজ অনুসরণ করি এবং নির্ভুলতা ব্যবহার করে মূল্যায়ন করি।
হোমপেজ : https://pilehvar.github.io/wic/
ডাউনলোড সাইজ :
386.93 KiB
ডেটাসেটের আকার :
1.67 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,400 |
'train' | ৫,৪২৮ |
'validation' | 638 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'end1': int32,
'end2': int32,
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
'start1': int32,
'start2': int32,
'word': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
শেষ 1 | টেনসর | int32 | ||
শেষ2 | টেনসর | int32 | ||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
বাক্য1 | পাঠ্য | স্ট্রিং | ||
বাক্য2 | পাঠ্য | স্ট্রিং | ||
শুরু1 | টেনসর | int32 | ||
শুরু2 | টেনসর | int32 | ||
শব্দ | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{DBLP:journals/corr/abs-1808-09121,
author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
journal={CoRR},
volume={abs/1808.09121},
year={2018},
url={http://arxiv.org/abs/1808.09121},
archivePrefix={arXiv},
eprint={1808.09121},
timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wsc
- কনফিগারেশনের বিবরণ : উইনোগ্রাড স্কিমা চ্যালেঞ্জ (WSC, Levesque et al., 2012) একটি পাঠ বোঝার কাজ যেখানে একটি সিস্টেমকে অবশ্যই একটি সর্বনাম সহ একটি বাক্য পড়তে হবে এবং পছন্দের তালিকা থেকে সেই সর্বনামের রেফারেন্ট নির্বাচন করতে হবে। এই টাস্কের অসুবিধা এবং হেডরুমটি এখনও বাকি থাকায়, আমরা WSC কে SuperGLUE-তে অন্তর্ভুক্ত করেছি এবং ডেটাসেটটিকে এর কোরফারেন্স ফর্মে পুনঃকাস্ট করেছি। কাজটিকে একটি বাইনারি শ্রেণিবিন্যাস সমস্যা হিসাবে নিক্ষেপ করা হয়েছে, N-মাল্টিপল পছন্দের বিপরীতে, একটি বাক্যের মধ্যে কোরফারেন্স লিঙ্কগুলি বোঝার মডেলের ক্ষমতাকে বিচ্ছিন্ন করার জন্য বিভিন্ন অন্যান্য কৌশলের বিপরীতে যা একাধিক পছন্দের পরিস্থিতিতে কার্যকর হতে পারে। এটি মাথায় রেখে, আমরা যাচাইকরণ সেটে 65% নেতিবাচক সংখ্যাগরিষ্ঠ শ্রেণির সাথে একটি বিভক্ত তৈরি করি, যা লুকানো পরীক্ষা সেটের বিতরণকে প্রতিফলিত করে, এবং প্রশিক্ষণ সেটে 52% নেতিবাচক শ্রেণি। প্রশিক্ষণ এবং বৈধতার উদাহরণগুলি মূল উইনোগ্রাড স্কিমা ডেটাসেট (লেভেস্ক এট আল।, 2012) থেকে এবং সেইসাথে অনুমোদিত সংস্থা কমনসেন্স রিজনিং দ্বারা বিতরণ করা হয়েছে। পরীক্ষার উদাহরণগুলি কথাসাহিত্যের বই থেকে নেওয়া হয়েছে এবং মূল ডেটাসেটের লেখকরা আমাদের সাথে শেয়ার করেছেন। পূর্বে, WSC এর একটি সংস্করণ NLI হিসাবে পুনঃস্থাপন করা হয়েছিল যেমন GLUE-তে অন্তর্ভুক্ত ছিল, WNLI নামে পরিচিত। WNLI-তে কোনো উল্লেখযোগ্য অগ্রগতি হয়নি, অনেক জমা শুধুমাত্র সংখ্যাগরিষ্ঠ শ্রেণীর ভবিষ্যদ্বাণী জমা দেওয়ার জন্য বেছে নিয়েছে। একটি প্রতিকূল ট্রেন/দেব বিভক্তির কারণে WNLI বিশেষত কঠিন হয়ে পড়েছিল: প্রশিক্ষণ সেটে উপস্থিত প্রিমিস বাক্য কখনও কখনও একটি ভিন্ন অনুমান এবং একটি ফ্লিপড লেবেল সহ বিকাশ সেটে উপস্থিত হয়। যদি একটি সিস্টেম অর্থপূর্ণভাবে সাধারণীকরণ না করে প্রশিক্ষণ সেটটি মুখস্থ করে, যা প্রশিক্ষণ সেটের ছোট আকারের কারণে সহজ ছিল, তবে এটি বিকাশ সেটে সুযোগের চেয়ে অনেক কম পারফর্ম করতে পারে। প্রশিক্ষণ, বৈধতা এবং পরীক্ষার সেটের মধ্যে কোনো বাক্য ভাগ করা না হয় তা নিশ্চিত করে আমরা WSC-এর SuperGLUE সংস্করণে এই প্রতিকূল নকশাটি সরিয়ে ফেলি।
যাইহোক, বৈধতা এবং পরীক্ষার সেটগুলি বিভিন্ন ডোমেন থেকে আসে, বৈধকরণ সেটে অস্পষ্ট উদাহরণ থাকে যেমন একটি অ-নাম শব্দগুচ্ছ শব্দ পরিবর্তন করলে বাক্যটির মূল নির্ভরতা পরিবর্তন হবে। পরীক্ষার সেটে কেবলমাত্র আরও সহজবোধ্য উদাহরণ রয়েছে, উচ্চ সংখ্যক বিশেষ্য বাক্যাংশ (এবং মডেলের জন্য আরও পছন্দ), কিন্তু কম থেকে কোন অস্পষ্টতা নেই।
হোমপেজ : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
ডাউনলোডের আকার :
31.98 KiB
ডেটাসেটের আকার :
219.70 KiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
span1_index | টেনসর | int32 | ||
span1_টেক্সট | পাঠ্য | স্ট্রিং | ||
span2_index | টেনসর | int32 | ||
span2_টেক্সট | পাঠ্য | স্ট্রিং | ||
পাঠ্য | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wsc.fixed
- কনফিগারেশনের বিবরণ : উইনোগ্রাড স্কিমা চ্যালেঞ্জ (WSC, Levesque et al., 2012) একটি পাঠ বোঝার কাজ যেখানে একটি সিস্টেমকে অবশ্যই একটি সর্বনাম সহ একটি বাক্য পড়তে হবে এবং পছন্দের তালিকা থেকে সেই সর্বনামের রেফারেন্ট নির্বাচন করতে হবে। এই টাস্কের অসুবিধা এবং হেডরুমটি এখনও বাকি থাকায়, আমরা WSC কে SuperGLUE-তে অন্তর্ভুক্ত করেছি এবং ডেটাসেটটিকে এর কোরফারেন্স ফর্মে পুনঃকাস্ট করেছি। কাজটিকে একটি বাইনারি শ্রেণিবিন্যাস সমস্যা হিসাবে নিক্ষেপ করা হয়েছে, N-মাল্টিপল পছন্দের বিপরীতে, একটি বাক্যের মধ্যে কোরফারেন্স লিঙ্কগুলি বোঝার মডেলের ক্ষমতাকে বিচ্ছিন্ন করার জন্য বিভিন্ন অন্যান্য কৌশলের বিপরীতে যা একাধিক পছন্দের পরিস্থিতিতে কার্যকর হতে পারে। এটি মাথায় রেখে, আমরা যাচাইকরণ সেটে 65% নেতিবাচক সংখ্যাগরিষ্ঠ শ্রেণির সাথে একটি বিভক্ত তৈরি করি, যা লুকানো পরীক্ষা সেটের বিতরণকে প্রতিফলিত করে, এবং প্রশিক্ষণ সেটে 52% নেতিবাচক শ্রেণি। প্রশিক্ষণ এবং বৈধতার উদাহরণগুলি মূল উইনোগ্রাড স্কিমা ডেটাসেট (লেভেস্ক এট আল।, 2012) থেকে এবং সেইসাথে অনুমোদিত সংস্থা কমনসেন্স রিজনিং দ্বারা বিতরণ করা হয়েছে। পরীক্ষার উদাহরণগুলি কথাসাহিত্যের বই থেকে নেওয়া হয়েছে এবং মূল ডেটাসেটের লেখকরা আমাদের সাথে শেয়ার করেছেন। পূর্বে, WSC এর একটি সংস্করণ NLI হিসাবে পুনঃস্থাপন করা হয়েছিল যেমন GLUE-তে অন্তর্ভুক্ত ছিল, WNLI নামে পরিচিত। WNLI-তে কোনো উল্লেখযোগ্য অগ্রগতি হয়নি, অনেক জমা শুধুমাত্র সংখ্যাগরিষ্ঠ শ্রেণীর ভবিষ্যদ্বাণী জমা দেওয়ার জন্য বেছে নিয়েছে। একটি প্রতিকূল ট্রেন/দেব বিভক্তির কারণে WNLI বিশেষত কঠিন হয়ে পড়েছিল: প্রশিক্ষণ সেটে উপস্থিত প্রিমিস বাক্য কখনও কখনও একটি ভিন্ন অনুমান এবং একটি ফ্লিপড লেবেল সহ বিকাশ সেটে উপস্থিত হয়। যদি একটি সিস্টেম অর্থপূর্ণভাবে সাধারণীকরণ না করে প্রশিক্ষণ সেটটি মুখস্থ করে, যা প্রশিক্ষণ সেটের ছোট আকারের কারণে সহজ ছিল, তবে এটি বিকাশ সেটে সুযোগের চেয়ে অনেক কম পারফর্ম করতে পারে। প্রশিক্ষণ, বৈধতা এবং পরীক্ষার সেটের মধ্যে কোনো বাক্য ভাগ করা না হয় তা নিশ্চিত করে আমরা WSC-এর SuperGLUE সংস্করণে এই প্রতিকূল নকশাটি সরিয়ে ফেলি।
যাইহোক, বৈধতা এবং পরীক্ষার সেটগুলি বিভিন্ন ডোমেন থেকে আসে, বৈধকরণ সেটে অস্পষ্ট উদাহরণ থাকে যেমন একটি অ-নাম শব্দগুচ্ছ শব্দ পরিবর্তন করলে বাক্যটির মূল নির্ভরতা পরিবর্তন হবে। পরীক্ষার সেটে কেবলমাত্র আরও সহজবোধ্য উদাহরণ রয়েছে, উচ্চ সংখ্যক বিশেষ্য বাক্যাংশ (এবং মডেলের জন্য আরও পছন্দ), কিন্তু কম থেকে কোন অস্পষ্টতা নেই।
এই সংস্করণটি এমন সমস্যার সমাধান করে যেখানে স্প্যানগুলি আসলে পাঠ্যের সাবস্ট্রিং নয়।
হোমপেজ : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
ডাউনলোডের আকার :
31.98 KiB
ডেটাসেটের আকার :
219.70 KiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
span1_index | টেনসর | int32 | ||
span1_টেক্সট | পাঠ্য | স্ট্রিং | ||
span2_index | টেনসর | int32 | ||
span2_টেক্সট | পাঠ্য | স্ট্রিং | ||
পাঠ্য | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/axb
কনফিগার বিবরণ : একটি বিশেষজ্ঞ-নির্মিত, ডায়াগনস্টিক ডেটাসেট যা স্বয়ংক্রিয়ভাবে ভাষাগত, সাধারণ জ্ঞান এবং বিশ্ব জ্ঞানের বিস্তৃত পরিসরের জন্য মডেল পরীক্ষা করে। এই বিস্তৃত-কভারেজ ডায়াগনস্টিকটির প্রতিটি উদাহরণ হল একটি বাক্য জোড়া যা একটি ত্রি-মুখী এনটেইলমেন্ট সম্পর্ক (এনটেইলমেন্ট, নিরপেক্ষ, বা দ্বন্দ্ব) সহ লেবেলযুক্ত এবং লেবেলগুলির সাথে ট্যাগ করা হয় যা দুটি বাক্যের মধ্যে সম্পর্ককে চিহ্নিত করে এমন ঘটনা নির্দেশ করে। GLUE লিডারবোর্ডে জমাগুলি ডায়াগনস্টিক ডেটাসেটে জমা দেওয়ার মাল্টিএনএলআই ক্লাসিফায়ার থেকে ভবিষ্যদ্বাণী অন্তর্ভুক্ত করার জন্য প্রয়োজন, এবং ফলাফলের বিশ্লেষণগুলি প্রধান লিডারবোর্ডের পাশাপাশি দেখানো হয়েছিল। যেহেতু এই বিস্তৃত-কভারেজ ডায়াগনস্টিক কাজটি শীর্ষ মডেলগুলির জন্য কঠিন প্রমাণিত হয়েছে, তাই আমরা এটিকে SuperGLUE-তে ধরে রাখি। যাইহোক, যেহেতু MultiNLI SuperGLUE-এর অংশ নয়, তাই আমরা দ্বন্দ্ব এবং নিরপেক্ষকে একটি একক not_enttailment লেবেলে ভেঙে ফেলি, এবং অনুরোধ করি যে জমাগুলি RTE টাস্কের জন্য ব্যবহৃত মডেল থেকে ফলাফলের সেটের পূর্বাভাস অন্তর্ভুক্ত করে।
ডাউনলোড সাইজ :
33.15 KiB
ডেটাসেটের আকার :
290.53 KiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,104 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
বাক্য1 | পাঠ্য | স্ট্রিং | ||
বাক্য2 | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/axg
কনফিগারেশনের বিবরণ : উইনোজেন্ডার কোরফারেন্স রেজোলিউশন সিস্টেমে লিঙ্গ পক্ষপাত পরিমাপ করার জন্য ডিজাইন করা হয়েছে। আমরা ডাইভার্স ন্যাচারাল ল্যাঙ্গুয়েজ ইনফারেন্স কালেকশন (DNC; Poliak et al., 2018) সংস্করণটি ব্যবহার করি যা উইনোজেন্ডারকে একটি টেক্সচুয়াল এনটেইলমেন্ট টাস্ক হিসাবে কাস্ট করে। প্রতিটি উদাহরণে একটি পুরুষ বা মহিলা সর্বনাম সহ একটি প্রাথমিক বাক্য এবং সর্বনামের সম্ভাব্য পূর্ববর্তী একটি অনুমান রয়েছে। উদাহরণগুলি ন্যূনতম জোড়ায় দেখা যায়, যেখানে একটি উদাহরণ এবং এর জোড়ার মধ্যে একমাত্র পার্থক্য হল প্রিমাইজে সর্বনামের লিঙ্গ। উইনোজেন্ডারের পারফরম্যান্স নির্ভুলতা এবং লিঙ্গ সমতা স্কোর উভয় দিয়েই পরিমাপ করা হয়: ন্যূনতম জোড়ার শতাংশ যার জন্য পূর্বাভাস একই। আমরা লক্ষ্য করি যে একটি সিস্টেম তুচ্ছভাবে সমস্ত উদাহরণের জন্য একই শ্রেণীর অনুমান করে একটি নিখুঁত লিঙ্গ সমতা স্কোর পেতে পারে, তাই উচ্চ নির্ভুলতা না থাকলে একটি উচ্চ লিঙ্গ সমতা স্কোর অর্থহীন। লিঙ্গ পক্ষপাতের একটি ডায়গনিস্টিক পরীক্ষা হিসাবে, আমরা স্কিমাগুলিকে উচ্চ ইতিবাচক ভবিষ্যদ্বাণীমূলক মান এবং কম নেতিবাচক ভবিষ্যদ্বাণীমূলক মান হিসাবে দেখি; অর্থাৎ, তারা একটি সিস্টেমে লিঙ্গ পক্ষপাতের উপস্থিতি প্রদর্শন করতে পারে, কিন্তু এর অনুপস্থিতি প্রমাণ করতে পারে না।
ডাউনলোড সাইজ :
10.17 KiB
ডেটাসেটের আকার :
69.75 KiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 356 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অনুমান | পাঠ্য | স্ট্রিং | ||
idx | টেনসর | int32 | ||
লেবেল | ক্লাসলেবেল | int64 | ||
ভিত্তি | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{rudinger-EtAl:2018:N18,
author = {Rudinger, Rachel and Naradowsky, Jason and Leonard, Brian and {Van Durme}, Benjamin},
title = {Gender Bias in Coreference Resolution},
booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2018},
address = {New Orleans, Louisiana},
publisher = {Association for Computational Linguistics}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.