ভালো আঠা

  • বর্ণনা :

SuperGLUE ( https://super.gluebenchmark.com/ ) হল একটি নতুন বেঞ্চমার্ক যা GLUE-এর পরে স্টাইল করা আরও কঠিন ভাষা বোঝার কাজ, উন্নত সংস্থান এবং একটি নতুন পাবলিক লিডারবোর্ড সহ।

super_glue/boolq (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : BoolQ (বুলিয়ান প্রশ্ন, ক্লার্ক এট আল।, 2019a) হল একটি QA টাস্ক যেখানে প্রতিটি উদাহরণে একটি ছোট প্যাসেজ এবং প্যাসেজ সম্পর্কে হ্যাঁ/না প্রশ্ন থাকে। প্রশ্নগুলি Google সার্চ ইঞ্জিনের ব্যবহারকারীদের দ্বারা বেনামে এবং অযাচিতভাবে প্রদান করা হয়, এবং পরে উত্তর সম্বলিত উইকিপিডিয়া নিবন্ধ থেকে একটি অনুচ্ছেদের সাথে যুক্ত করা হয়। মূল কাজ অনুসরণ করে, আমরা নির্ভুলতার সাথে মূল্যায়ন করি।

  • হোমপেজ : https://github.com/google-research-datasets/boolean-questions

  • ডাউনলোড সাইজ : 3.93 MiB

  • ডেটাসেটের আকার : 10.75 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 3,245
'train' 9,427
'validation' 3,270
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
idx টেনসর int32
লেবেল ক্লাসলেবেল int64
উত্তরণ পাঠ্য স্ট্রিং
প্রশ্ন পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

সুপার_গ্লু/সিবি

  • কনফিগারেশনের বিবরণ : কমিটমেন্টব্যাঙ্ক (ডি মারনেফে এট আল।, 2019) হল সংক্ষিপ্ত টেক্সটের একটি কর্পাস যেখানে অন্তত একটি বাক্যে একটি এমবেডেড ক্লজ রয়েছে। এই এমবেডেড ধারাগুলির প্রত্যেকটি এমন মাত্রার সাথে টীকা করা হয়েছে যেখানে আমরা আশা করি যে যে ব্যক্তি পাঠটি লিখেছেন তিনি ধারাটির সত্যতার প্রতি প্রতিশ্রুতিবদ্ধ। ওয়াল স্ট্রিট জার্নাল, ব্রিটিশ ন্যাশনাল কর্পাস এবং সুইচবোর্ড থেকে ফিকশন থেকে প্রাপ্ত উদাহরণগুলির উপর থ্রি-ক্লাস টেক্সচুয়াল এনটেইলমেন্ট হিসাবে তৈরি করা কাজটি। প্রতিটি উদাহরণে একটি এমবেডেড ক্লজ সম্বলিত একটি ভিত্তি থাকে এবং সংশ্লিষ্ট হাইপোথিসিস হল সেই ধারাটির নিষ্কাশন। আমরা ডেটার একটি উপসেট ব্যবহার করি যার 0.85-এর উপরে আন্তঃ টীকাকারী চুক্তি ছিল। ডেটা ভারসাম্যহীন (তুলনামূলকভাবে কম নিরপেক্ষ উদাহরণ), তাই আমরা নির্ভুলতা এবং F1 ব্যবহার করে মূল্যায়ন করি, যেখানে বহু-শ্রেণীর F1-এর জন্য আমরা প্রতি শ্রেণীতে F1-এর ওজনহীন গড় গণনা করি।

  • হোমপেজ : https://github.com/mcdm/CommitmentBank

  • ডাউনলোড 73.71 KiB

  • ডেটাসেটের আকার : 229.28 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 250
'train' 250
'validation' 56
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অনুমান পাঠ্য স্ট্রিং
idx টেনসর int32
লেবেল ক্লাসলেবেল int64
ভিত্তি পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

সুপার_গ্লু/কোপা

  • কনফিগারেশনের বিবরণ : দ্য চয়েস অফ প্লেজিবল অল্টারনেটিভস (COPA, Roemmele et al., 2011) ডেটাসেট হল একটি কার্যকারণ যুক্তিযুক্ত কাজ যেখানে একটি সিস্টেমকে একটি প্রাথমিক বাক্য এবং দুটি সম্ভাব্য বিকল্প দেওয়া হয়। সিস্টেমটিকে অবশ্যই বিকল্পটি বেছে নিতে হবে যার ভিত্তির সাথে আরও যুক্তিযুক্ত কার্যকারণ সম্পর্ক রয়েছে। বিকল্প নির্মাণের জন্য ব্যবহৃত পদ্ধতিটি নিশ্চিত করে যে কাজটির সমাধান করার জন্য কার্যকারণমূলক যুক্তি প্রয়োজন। উদাহরণগুলি হয় বিকল্প সম্ভাব্য কারণগুলির সাথে মোকাবিলা করে বা ভিত্তি বাক্যের বিকল্প সম্ভাব্য প্রভাবগুলির সাথে মোকাবিলা করে, মডেলের জন্য দুটি দৃষ্টান্তের প্রকারের মধ্যে দ্ব্যর্থহীন একটি সাধারণ প্রশ্ন সহ। সমস্ত উদাহরণ হস্তশিল্প এবং অনলাইন ব্লগ এবং একটি ফটোগ্রাফি-সম্পর্কিত বিশ্বকোষ থেকে বিষয়গুলিতে ফোকাস করা হয়। লেখকদের সুপারিশ অনুসরণ করে, আমরা নির্ভুলতা ব্যবহার করে মূল্যায়ন করি।

  • হোমপেজ : http://people.ict.usc.edu/~gordon/copa.html

  • ডাউনলোড 42.96 KiB

  • ডেটাসেটের আকার : 196.00 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 500
'train' 400
'validation' 100
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পছন্দ1 পাঠ্য স্ট্রিং
পছন্দ2 পাঠ্য স্ট্রিং
idx টেনসর int32
লেবেল ক্লাসলেবেল int64
ভিত্তি পাঠ্য স্ট্রিং
প্রশ্ন পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

সুপার_গ্লু/মাল্টির্ক

  • কনফিগারেশনের বিবরণ : মাল্টি-সেন্টেন্স রিডিং কম্প্রিহেনশন ডেটাসেট (MultiRC, Khashabi et al., 2018) একটি সত্য/মিথ্যা প্রশ্ন-উত্তর দেওয়ার কাজ। প্রতিটি উদাহরণে একটি প্রসঙ্গ অনুচ্ছেদ, সেই অনুচ্ছেদ সম্পর্কে একটি প্রশ্ন এবং সেই প্রশ্নের সম্ভাব্য উত্তরগুলির একটি তালিকা থাকে যা সত্য বা মিথ্যা হিসাবে লেবেল করা আবশ্যক। প্রশ্ন-উত্তর (QA) অনেক ডেটাসেটের সাথে একটি জনপ্রিয় সমস্যা। আমরা একাধিক পছন্দসই বৈশিষ্ট্যের কারণে মাল্টিআরসি ব্যবহার করি: (i) প্রতিটি প্রশ্নের একাধিক সম্ভাব্য সঠিক উত্তর থাকতে পারে, তাই প্রতিটি প্রশ্ন-উত্তর জোড়াকে অন্য জোড়া থেকে স্বাধীনভাবে মূল্যায়ন করতে হবে, (ii) প্রশ্নগুলি এমনভাবে ডিজাইন করা হয়েছে যাতে প্রতিটি প্রশ্নের উত্তর দিতে হয় একাধিক প্রসঙ্গ বাক্য থেকে তথ্য অঙ্কন, এবং (iii) প্রশ্ন-উত্তর জোড়া বিন্যাসটি স্প্যান-ভিত্তিক নিষ্কাশনমূলক QA-এর তুলনায় অন্যান্য SuperGLUE কার্যগুলির API-এর সাথে আরও ঘনিষ্ঠভাবে মেলে। অনুচ্ছেদগুলি সংবাদ, কথাসাহিত্য এবং ঐতিহাসিক পাঠ্য সহ সাতটি ডোমেন থেকে আঁকা হয়েছে।

  • হোমপেজ : https://cogcomp.org/multirc/

  • ডাউনলোড সাইজ : 1.06 MiB

  • ডেটাসেটের আকার : 70.39 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ৯,৬৯৩
'train' 27,243
'validation' ৪,৮৪৮
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
উত্তর পাঠ্য স্ট্রিং
idx ফিচারসডিক্ট
idx/উত্তর টেনসর int32
idx/অনুচ্ছেদ টেনসর int32
আইডিএক্স/প্রশ্ন টেনসর int32
লেবেল ক্লাসলেবেল int64
অনুচ্ছেদ পাঠ্য স্ট্রিং
প্রশ্ন পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

সুপার_গ্লু/রেকর্ড

  • কনফিগার বিবরণ : (কমনসেন্স রিজনিং ডেটাসেটের সাথে রিডিং কম্প্রিহেনশন, ঝাং এট আল।, 2018) একটি মাল্টিপল-চয়েস QA টাস্ক। প্রতিটি উদাহরণে একটি সংবাদ নিবন্ধ এবং একটি ক্লোজ-স্টাইলের প্রশ্ন থাকে যে নিবন্ধটিতে একটি সত্তাকে মুখোশ করা হয়েছে। সিস্টেমটিকে অবশ্যই প্রদত্ত প্যাসেজে সম্ভাব্য সত্তাগুলির একটি প্রদত্ত তালিকা থেকে মুখোশযুক্ত সত্তার পূর্বাভাস দিতে হবে, যেখানে একই সত্তা একাধিক ভিন্ন পৃষ্ঠ ফর্ম ব্যবহার করে প্রকাশ করা যেতে পারে, যার সবকটিই সঠিক বলে বিবেচিত হয়। নিবন্ধগুলি সিএনএন এবং ডেইলি মেইল ​​থেকে নেওয়া হয়েছে। মূল কাজ অনুসরণ করে, আমরা সর্বোচ্চ (সমস্ত উল্লেখের উপরে) টোকেন-স্তরের F1 এবং সঠিক মিল (EM) দিয়ে মূল্যায়ন করি।

  • হোমপেজ : https://sheng-z.github.io/ReCoRD-explorer/

  • ডাউনলোড সাইজ : 49.36 MiB

  • ডেটাসেটের আকার : 166.40 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন shuffle_files=False (ট্রেন)

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 10,000
'train' 100,730
'validation' 10,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
উত্তর ক্রম (পাঠ্য) (কোনটিই নয়,) স্ট্রিং
সত্তা ক্রম (পাঠ্য) (কোনটিই নয়,) স্ট্রিং
idx ফিচারসডিক্ট
আইডিএক্স/প্যাসেজ টেনসর int32
idx/query টেনসর int32
উত্তরণ পাঠ্য স্ট্রিং
প্রশ্ন পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

সুপার_গ্লু/আরটিই

  • কনফিগারেশনের বিবরণ : রিকগনিজিং টেক্সচুয়াল এনটেইলমেন্ট (আরটিই) ডেটাসেটগুলি টেক্সচুয়াল এনটেইলমেন্টের বার্ষিক প্রতিযোগিতার একটি সিরিজ থেকে আসে, একটি প্রদত্ত প্রিমিস বাক্য একটি প্রদত্ত হাইপোথিসিস বাক্য (প্রাকৃতিক ভাষা অনুমান, NLI নামেও পরিচিত) অন্তর্ভুক্ত কিনা তা অনুমান করার সমস্যা। RTE আগে GLUE-তে অন্তর্ভুক্ত ছিল, এবং আমরা আগের মতো একই ডেটা এবং বিন্যাস ব্যবহার করি: আমরা RTE1 (Dagan et al., 2006), RTE2 (বার হাইম এট আল।, 2006), RTE3 (Giampiccolo et al., 2007), এবং RTE5 (Bentivogli et al., 2009)। সমস্ত ডেটাসেট একত্রিত হয় এবং দুই-শ্রেণীর শ্রেণীবিভাগে রূপান্তরিত হয়: entailment এবং not_entailment। GLUE-এর সমস্ত কাজগুলির মধ্যে, RTE তাদের মধ্যে ছিল যারা ট্রান্সফার শেখার মাধ্যমে সবচেয়ে বেশি উপকৃত হয়েছিল, GLUE লঞ্চের সময় 85% নির্ভুলতা (Liu et al., 2019c) কাছাকাছি র্যান্ডম-চান্স পারফরম্যান্স (~56%) থেকে লাফিয়ে লেখার সময়। মানুষের কর্মক্ষমতার সাপেক্ষে আট পয়েন্টের ব্যবধান দেওয়া হলেও, কাজটি এখনও মেশিন দ্বারা সমাধান করা হয়নি, এবং আমরা আশা করি বাকি ব্যবধানটি বন্ধ করা কঠিন হবে।

  • হোমপেজ : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • ডাউনলোড 733.32 KiB

  • ডেটাসেটের আকার : 2.15 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 3,000
'train' 2,490
'validation' 277
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অনুমান পাঠ্য স্ট্রিং
idx টেনসর int32
লেবেল ক্লাসলেবেল int64
ভিত্তি পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

  • কনফিগারেশনের বিবরণ : ওয়ার্ড-ইন-কনটেক্সট (WiC, Pilehvar এবং Camacho-Collados, 2019) ডেটাসেট বাক্য জোড়ার উপর বাইনারি শ্রেণীবিভাগ হিসাবে একটি শব্দ অর্থ দ্ব্যর্থতা নিরসন কাজকে সমর্থন করে। দুটি বাক্য এবং একটি পলিসেমাস (অস্পষ্ট-অস্পষ্ট) শব্দ যা উভয় বাক্যে উপস্থিত হয়, কাজটি হল শব্দটি উভয় বাক্যে একই অর্থে ব্যবহৃত হয়েছে কিনা তা নির্ধারণ করা। বাক্যগুলো WordNet (Miller, 1995), VerbNet (Schuler, 2005), এবং Wiktionary থেকে নেওয়া হয়েছে। আমরা মূল কাজ অনুসরণ করি এবং নির্ভুলতা ব্যবহার করে মূল্যায়ন করি।

  • হোমপেজ : https://pilehvar.github.io/wic/

  • ডাউনলোড সাইজ : 386.93 KiB

  • ডেটাসেটের আকার : 1.67 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,400
'train' ৫,৪২৮
'validation' 638
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
শেষ 1 টেনসর int32
শেষ2 টেনসর int32
idx টেনসর int32
লেবেল ক্লাসলেবেল int64
বাক্য1 পাঠ্য স্ট্রিং
বাক্য2 পাঠ্য স্ট্রিং
শুরু1 টেনসর int32
শুরু2 টেনসর int32
শব্দ পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • কনফিগারেশনের বিবরণ : উইনোগ্রাড স্কিমা চ্যালেঞ্জ (WSC, Levesque et al., 2012) একটি পাঠ বোঝার কাজ যেখানে একটি সিস্টেমকে অবশ্যই একটি সর্বনাম সহ একটি বাক্য পড়তে হবে এবং পছন্দের তালিকা থেকে সেই সর্বনামের রেফারেন্ট নির্বাচন করতে হবে। এই টাস্কের অসুবিধা এবং হেডরুমটি এখনও বাকি থাকায়, আমরা WSC কে SuperGLUE-তে অন্তর্ভুক্ত করেছি এবং ডেটাসেটটিকে এর কোরফারেন্স ফর্মে পুনঃকাস্ট করেছি। কাজটিকে একটি বাইনারি শ্রেণিবিন্যাস সমস্যা হিসাবে নিক্ষেপ করা হয়েছে, N-মাল্টিপল পছন্দের বিপরীতে, একটি বাক্যের মধ্যে কোরফারেন্স লিঙ্কগুলি বোঝার মডেলের ক্ষমতাকে বিচ্ছিন্ন করার জন্য বিভিন্ন অন্যান্য কৌশলের বিপরীতে যা একাধিক পছন্দের পরিস্থিতিতে কার্যকর হতে পারে। এটি মাথায় রেখে, আমরা যাচাইকরণ সেটে 65% নেতিবাচক সংখ্যাগরিষ্ঠ শ্রেণির সাথে একটি বিভক্ত তৈরি করি, যা লুকানো পরীক্ষা সেটের বিতরণকে প্রতিফলিত করে, এবং প্রশিক্ষণ সেটে 52% নেতিবাচক শ্রেণি। প্রশিক্ষণ এবং বৈধতার উদাহরণগুলি মূল উইনোগ্রাড স্কিমা ডেটাসেট (লেভেস্ক এট আল।, 2012) থেকে এবং সেইসাথে অনুমোদিত সংস্থা কমনসেন্স রিজনিং দ্বারা বিতরণ করা হয়েছে। পরীক্ষার উদাহরণগুলি কথাসাহিত্যের বই থেকে নেওয়া হয়েছে এবং মূল ডেটাসেটের লেখকরা আমাদের সাথে শেয়ার করেছেন। পূর্বে, WSC এর একটি সংস্করণ NLI হিসাবে পুনঃস্থাপন করা হয়েছিল যেমন GLUE-তে অন্তর্ভুক্ত ছিল, WNLI নামে পরিচিত। WNLI-তে কোনো উল্লেখযোগ্য অগ্রগতি হয়নি, অনেক জমা শুধুমাত্র সংখ্যাগরিষ্ঠ শ্রেণীর ভবিষ্যদ্বাণী জমা দেওয়ার জন্য বেছে নিয়েছে। একটি প্রতিকূল ট্রেন/দেব বিভক্তির কারণে WNLI বিশেষত কঠিন হয়ে পড়েছিল: প্রশিক্ষণ সেটে উপস্থিত প্রিমিস বাক্য কখনও কখনও একটি ভিন্ন অনুমান এবং একটি ফ্লিপড লেবেল সহ বিকাশ সেটে উপস্থিত হয়। যদি একটি সিস্টেম অর্থপূর্ণভাবে সাধারণীকরণ না করে প্রশিক্ষণ সেটটি মুখস্থ করে, যা প্রশিক্ষণ সেটের ছোট আকারের কারণে সহজ ছিল, তবে এটি বিকাশ সেটে সুযোগের চেয়ে অনেক কম পারফর্ম করতে পারে। প্রশিক্ষণ, বৈধতা এবং পরীক্ষার সেটের মধ্যে কোনো বাক্য ভাগ করা না হয় তা নিশ্চিত করে আমরা WSC-এর SuperGLUE সংস্করণে এই প্রতিকূল নকশাটি সরিয়ে ফেলি।

যাইহোক, বৈধতা এবং পরীক্ষার সেটগুলি বিভিন্ন ডোমেন থেকে আসে, বৈধকরণ সেটে অস্পষ্ট উদাহরণ থাকে যেমন একটি অ-নাম শব্দগুচ্ছ শব্দ পরিবর্তন করলে বাক্যটির মূল নির্ভরতা পরিবর্তন হবে। পরীক্ষার সেটে কেবলমাত্র আরও সহজবোধ্য উদাহরণ রয়েছে, উচ্চ সংখ্যক বিশেষ্য বাক্যাংশ (এবং মডেলের জন্য আরও পছন্দ), কিন্তু কম থেকে কোন অস্পষ্টতা নেই।

বিভক্ত উদাহরণ
'test' 146
'train' 554
'validation' 104
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
idx টেনসর int32
লেবেল ক্লাসলেবেল int64
span1_index টেনসর int32
span1_টেক্সট পাঠ্য স্ট্রিং
span2_index টেনসর int32
span2_টেক্সট পাঠ্য স্ট্রিং
পাঠ্য পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • কনফিগারেশনের বিবরণ : উইনোগ্রাড স্কিমা চ্যালেঞ্জ (WSC, Levesque et al., 2012) একটি পাঠ বোঝার কাজ যেখানে একটি সিস্টেমকে অবশ্যই একটি সর্বনাম সহ একটি বাক্য পড়তে হবে এবং পছন্দের তালিকা থেকে সেই সর্বনামের রেফারেন্ট নির্বাচন করতে হবে। এই টাস্কের অসুবিধা এবং হেডরুমটি এখনও বাকি থাকায়, আমরা WSC কে SuperGLUE-তে অন্তর্ভুক্ত করেছি এবং ডেটাসেটটিকে এর কোরফারেন্স ফর্মে পুনঃকাস্ট করেছি। কাজটিকে একটি বাইনারি শ্রেণিবিন্যাস সমস্যা হিসাবে নিক্ষেপ করা হয়েছে, N-মাল্টিপল পছন্দের বিপরীতে, একটি বাক্যের মধ্যে কোরফারেন্স লিঙ্কগুলি বোঝার মডেলের ক্ষমতাকে বিচ্ছিন্ন করার জন্য বিভিন্ন অন্যান্য কৌশলের বিপরীতে যা একাধিক পছন্দের পরিস্থিতিতে কার্যকর হতে পারে। এটি মাথায় রেখে, আমরা যাচাইকরণ সেটে 65% নেতিবাচক সংখ্যাগরিষ্ঠ শ্রেণির সাথে একটি বিভক্ত তৈরি করি, যা লুকানো পরীক্ষা সেটের বিতরণকে প্রতিফলিত করে, এবং প্রশিক্ষণ সেটে 52% নেতিবাচক শ্রেণি। প্রশিক্ষণ এবং বৈধতার উদাহরণগুলি মূল উইনোগ্রাড স্কিমা ডেটাসেট (লেভেস্ক এট আল।, 2012) থেকে এবং সেইসাথে অনুমোদিত সংস্থা কমনসেন্স রিজনিং দ্বারা বিতরণ করা হয়েছে। পরীক্ষার উদাহরণগুলি কথাসাহিত্যের বই থেকে নেওয়া হয়েছে এবং মূল ডেটাসেটের লেখকরা আমাদের সাথে শেয়ার করেছেন। পূর্বে, WSC এর একটি সংস্করণ NLI হিসাবে পুনঃস্থাপন করা হয়েছিল যেমন GLUE-তে অন্তর্ভুক্ত ছিল, WNLI নামে পরিচিত। WNLI-তে কোনো উল্লেখযোগ্য অগ্রগতি হয়নি, অনেক জমা শুধুমাত্র সংখ্যাগরিষ্ঠ শ্রেণীর ভবিষ্যদ্বাণী জমা দেওয়ার জন্য বেছে নিয়েছে। একটি প্রতিকূল ট্রেন/দেব বিভক্তির কারণে WNLI বিশেষত কঠিন হয়ে পড়েছিল: প্রশিক্ষণ সেটে উপস্থিত প্রিমিস বাক্য কখনও কখনও একটি ভিন্ন অনুমান এবং একটি ফ্লিপড লেবেল সহ বিকাশ সেটে উপস্থিত হয়। যদি একটি সিস্টেম অর্থপূর্ণভাবে সাধারণীকরণ না করে প্রশিক্ষণ সেটটি মুখস্থ করে, যা প্রশিক্ষণ সেটের ছোট আকারের কারণে সহজ ছিল, তবে এটি বিকাশ সেটে সুযোগের চেয়ে অনেক কম পারফর্ম করতে পারে। প্রশিক্ষণ, বৈধতা এবং পরীক্ষার সেটের মধ্যে কোনো বাক্য ভাগ করা না হয় তা নিশ্চিত করে আমরা WSC-এর SuperGLUE সংস্করণে এই প্রতিকূল নকশাটি সরিয়ে ফেলি।

যাইহোক, বৈধতা এবং পরীক্ষার সেটগুলি বিভিন্ন ডোমেন থেকে আসে, বৈধকরণ সেটে অস্পষ্ট উদাহরণ থাকে যেমন একটি অ-নাম শব্দগুচ্ছ শব্দ পরিবর্তন করলে বাক্যটির মূল নির্ভরতা পরিবর্তন হবে। পরীক্ষার সেটে কেবলমাত্র আরও সহজবোধ্য উদাহরণ রয়েছে, উচ্চ সংখ্যক বিশেষ্য বাক্যাংশ (এবং মডেলের জন্য আরও পছন্দ), কিন্তু কম থেকে কোন অস্পষ্টতা নেই।

এই সংস্করণটি এমন সমস্যার সমাধান করে যেখানে স্প্যানগুলি আসলে পাঠ্যের সাবস্ট্রিং নয়।

বিভক্ত উদাহরণ
'test' 146
'train' 554
'validation' 104
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
idx টেনসর int32
লেবেল ক্লাসলেবেল int64
span1_index টেনসর int32
span1_টেক্সট পাঠ্য স্ট্রিং
span2_index টেনসর int32
span2_টেক্সট পাঠ্য স্ট্রিং
পাঠ্য পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • কনফিগার বিবরণ : একটি বিশেষজ্ঞ-নির্মিত, ডায়াগনস্টিক ডেটাসেট যা স্বয়ংক্রিয়ভাবে ভাষাগত, সাধারণ জ্ঞান এবং বিশ্ব জ্ঞানের বিস্তৃত পরিসরের জন্য মডেল পরীক্ষা করে। এই বিস্তৃত-কভারেজ ডায়াগনস্টিকটির প্রতিটি উদাহরণ হল একটি বাক্য জোড়া যা একটি ত্রি-মুখী এনটেইলমেন্ট সম্পর্ক (এনটেইলমেন্ট, নিরপেক্ষ, বা দ্বন্দ্ব) সহ লেবেলযুক্ত এবং লেবেলগুলির সাথে ট্যাগ করা হয় যা দুটি বাক্যের মধ্যে সম্পর্ককে চিহ্নিত করে এমন ঘটনা নির্দেশ করে। GLUE লিডারবোর্ডে জমাগুলি ডায়াগনস্টিক ডেটাসেটে জমা দেওয়ার মাল্টিএনএলআই ক্লাসিফায়ার থেকে ভবিষ্যদ্বাণী অন্তর্ভুক্ত করার জন্য প্রয়োজন, এবং ফলাফলের বিশ্লেষণগুলি প্রধান লিডারবোর্ডের পাশাপাশি দেখানো হয়েছিল। যেহেতু এই বিস্তৃত-কভারেজ ডায়াগনস্টিক কাজটি শীর্ষ মডেলগুলির জন্য কঠিন প্রমাণিত হয়েছে, তাই আমরা এটিকে SuperGLUE-তে ধরে রাখি। যাইহোক, যেহেতু MultiNLI SuperGLUE-এর অংশ নয়, তাই আমরা দ্বন্দ্ব এবং নিরপেক্ষকে একটি একক not_enttailment লেবেলে ভেঙে ফেলি, এবং অনুরোধ করি যে জমাগুলি RTE টাস্কের জন্য ব্যবহৃত মডেল থেকে ফলাফলের সেটের পূর্বাভাস অন্তর্ভুক্ত করে।

  • হোমপেজ : https://gluebenchmark.com/diagnostics

  • ডাউনলোড সাইজ : 33.15 KiB

  • ডেটাসেটের আকার : 290.53 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,104
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
idx টেনসর int32
লেবেল ক্লাসলেবেল int64
বাক্য1 পাঠ্য স্ট্রিং
বাক্য2 পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • কনফিগারেশনের বিবরণ : উইনোজেন্ডার কোরফারেন্স রেজোলিউশন সিস্টেমে লিঙ্গ পক্ষপাত পরিমাপ করার জন্য ডিজাইন করা হয়েছে। আমরা ডাইভার্স ন্যাচারাল ল্যাঙ্গুয়েজ ইনফারেন্স কালেকশন (DNC; Poliak et al., 2018) সংস্করণটি ব্যবহার করি যা উইনোজেন্ডারকে একটি টেক্সচুয়াল এনটেইলমেন্ট টাস্ক হিসাবে কাস্ট করে। প্রতিটি উদাহরণে একটি পুরুষ বা মহিলা সর্বনাম সহ একটি প্রাথমিক বাক্য এবং সর্বনামের সম্ভাব্য পূর্ববর্তী একটি অনুমান রয়েছে। উদাহরণগুলি ন্যূনতম জোড়ায় দেখা যায়, যেখানে একটি উদাহরণ এবং এর জোড়ার মধ্যে একমাত্র পার্থক্য হল প্রিমাইজে সর্বনামের লিঙ্গ। উইনোজেন্ডারের পারফরম্যান্স নির্ভুলতা এবং লিঙ্গ সমতা স্কোর উভয় দিয়েই পরিমাপ করা হয়: ন্যূনতম জোড়ার শতাংশ যার জন্য পূর্বাভাস একই। আমরা লক্ষ্য করি যে একটি সিস্টেম তুচ্ছভাবে সমস্ত উদাহরণের জন্য একই শ্রেণীর অনুমান করে একটি নিখুঁত লিঙ্গ সমতা স্কোর পেতে পারে, তাই উচ্চ নির্ভুলতা না থাকলে একটি উচ্চ লিঙ্গ সমতা স্কোর অর্থহীন। লিঙ্গ পক্ষপাতের একটি ডায়গনিস্টিক পরীক্ষা হিসাবে, আমরা স্কিমাগুলিকে উচ্চ ইতিবাচক ভবিষ্যদ্বাণীমূলক মান এবং কম নেতিবাচক ভবিষ্যদ্বাণীমূলক মান হিসাবে দেখি; অর্থাৎ, তারা একটি সিস্টেমে লিঙ্গ পক্ষপাতের উপস্থিতি প্রদর্শন করতে পারে, কিন্তু এর অনুপস্থিতি প্রমাণ করতে পারে না।

  • হোমপেজ : https://github.com/rudinger/winogender-schemas

  • ডাউনলোড সাইজ : 10.17 KiB

  • ডেটাসেটের আকার : 69.75 KiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 356
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অনুমান পাঠ্য স্ট্রিং
idx টেনসর int32
লেবেল ক্লাসলেবেল int64
ভিত্তি পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.