- বর্ণনা :
মানব টীকা এবং স্বয়ংক্রিয় মেট্রিক্স উভয় মাধ্যমেই এর মূল্যায়নের উপর ফোকাস সহ প্রাকৃতিক ভাষা প্রজন্মের জন্য জিইএম একটি বেঞ্চমার্ক পরিবেশ।
জিইএম এর লক্ষ্য: (1) 13টি ডেটাসেট জুড়ে NLG অগ্রগতি পরিমাপ করা যাতে অনেকগুলি NLG কাজ এবং ভাষা রয়েছে৷ (2) ডেটা বিবৃতি এবং চ্যালেঞ্জ সেটের মাধ্যমে উপস্থাপিত ডেটা এবং মডেলগুলির একটি গভীর বিশ্লেষণ প্রদান করুন। (3) স্বয়ংক্রিয় এবং মানব মেট্রিক উভয় ব্যবহার করে উত্পন্ন পাঠ্যের মূল্যায়নের জন্য মান বিকাশ করুন।
আরও তথ্য https://gem-benchmark.com এ পাওয়া যাবে।
হোমপেজ : https://gem-benchmark.com
সোর্স কোড :
tfds.text.gem.Gem
সংস্করণ :
-
1.0.0
: প্রাথমিক সংস্করণ -
1.0.1
: MLSum-এর জন্য খারাপ লিঙ্ক ফিল্টার আপডেট করুন -
1.1.0
(ডিফল্ট): চ্যালেঞ্জ সেটের রিলিজ
-
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
gem/common_gen (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : CommonGen হল একটি সীমাবদ্ধ পাঠ্য তৈরির কাজ, যা একটি বেঞ্চমার্ক ডেটাসেটের সাথে যুক্ত, স্পষ্টভাবে জেনারেটিভ কমনসেন্স যুক্তির ক্ষমতার জন্য মেশিনগুলি পরীক্ষা করার জন্য। সাধারণ ধারণার একটি সেট দেওয়া; কাজ হল এই ধারণাগুলি ব্যবহার করে একটি দৈনন্দিন পরিস্থিতি বর্ণনা করে একটি সুসংগত বাক্য তৈরি করা।
ডাউনলোড আকার :
1.84 MiB
ডেটাসেটের আকার :
16.84 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'challenge_test_scramble' | 500 |
'challenge_train_sample' | 500 |
'challenge_validation_sample' | 500 |
'test' | 1,497 |
'train' | 67,389 |
'validation' | 993 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'concept_set_id': int32,
'concepts': Sequence(string),
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
ধারণা_সেট_আইডি | টেনসর | int32 | ||
ধারণা | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
লক্ষ্য | টেনসর | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{lin2020commongen,
title = "CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning",
author = "Lin, Bill Yuchen and
Zhou, Wangchunshu and
Shen, Ming and
Zhou, Pei and
Bhagavatula, Chandra and
Choi, Yejin and
Ren, Xiang",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.165",
pages = "1823--1840",
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/cs_restaurants
কনফিগারেশনের বিবরণ : কাজটি হল একটি (অনুমানিক) ডায়ালগ সিস্টেমের পরিপ্রেক্ষিতে প্রতিক্রিয়া তৈরি করা যা রেস্তোরাঁ সম্পর্কে তথ্য প্রদান করে। ইনপুট হল একটি মৌলিক অভিপ্রায়/সংলাপ আইনের ধরন এবং স্লটগুলির একটি তালিকা (গুণাবলী) এবং তাদের মান। আউটপুট একটি স্বাভাবিক ভাষার বাক্য।
ডাউনলোড আকার :
1.46 MiB
ডেটাসেটের আকার :
2.71 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'challenge_test_scramble' | 500 |
'challenge_train_sample' | 500 |
'challenge_validation_sample' | 500 |
'test' | 842 |
'train' | 3,569 |
'validation' | 781 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'dialog_act': string,
'dialog_act_delexicalized': string,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
'target_delexicalized': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
dialog_act | টেনসর | স্ট্রিং | ||
dialog_act_delexicalized | টেনসর | স্ট্রিং | ||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_delexicalized | টেনসর | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{cs_restaurants,
address = {Tokyo, Japan},
title = {Neural {Generation} for {Czech}: {Data} and {Baselines} },
shorttitle = {Neural {Generation} for {Czech} },
url = {https://www.aclweb.org/anthology/W19-8670/},
urldate = {2019-10-18},
booktitle = {Proceedings of the 12th {International} {Conference} on {Natural} {Language} {Generation} ({INLG} 2019)},
author = {Dušek, Ondřej and Jurčíček, Filip},
month = oct,
year = {2019},
pages = {563--574}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
মণি/ডার্ট
কনফিগারেশনের বিবরণ : DART হল একটি বড় এবং ওপেন-ডোমেন স্ট্রাকচার্ড ডেটা রেকর্ড টু টেক্সট জেনারেশন কর্পাস যার প্রতিটি ইনপুট একটি ট্রি-স্ট্রাকচার্ড অন্টোলজি অনুসরণ করে সত্তা-সম্পর্কের ট্রিপলগুলির একটি সেটের সাথে উচ্চ-মানের বাক্য টীকা সহ।
ডাউনলোড সাইজ :
28.01 MiB
ডেটাসেটের আকার :
33.78 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৬,৯৫৯ |
'train' | ৬২,৬৫৯ |
'validation' | 2,768 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'dart_id': int32,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'subtree_was_extended': bool,
'target': string,
'target_sources': Sequence(string),
'tripleset': Sequence(string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
ডার্ট_আইডি | টেনসর | int32 | ||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
subtree_was_extended | টেনসর | bool | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
লক্ষ্য_উৎস | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
tripleset | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{radev2020dart,
title=Dart: Open-domain structured data record to text generation,
author={Radev, Dragomir and Zhang, Rui and Rau, Amrit and Sivaprasad, Abhinand and Hsieh, Chiachun and Rajani, Nazneen Fatema and Tang, Xiangru and Vyas, Aadit and Verma, Neha and Krishna, Pranav and others},
journal={arXiv preprint arXiv:2007.02871},
year={2020}
}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/e2e_nlg
কনফিগারেশনের বিবরণ : E2E ডেটাসেটটি একটি সীমিত-ডোমেন ডেটা-টু-টেক্সট টাস্কের জন্য ডিজাইন করা হয়েছে -- 8টি পর্যন্ত বিভিন্ন বৈশিষ্ট্যের (নাম, এলাকা, মূল্য পরিসীমা ইত্যাদি) উপর ভিত্তি করে রেস্তোরাঁর বিবরণ/সুপারিশ তৈরি করা।
ডাউনলোড আকার :
13.99 MiB
ডেটাসেটের আকার :
16.92 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'challenge_test_scramble' | 500 |
'challenge_train_sample' | 500 |
'challenge_validation_sample' | 500 |
'test' | 4,693 |
'train' | 33,525 |
'validation' | 4,299 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'meaning_representation': string,
'references': Sequence(string),
'target': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
অর্থ_প্রতিনিধি | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
লক্ষ্য | টেনসর | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{e2e_cleaned,
address = {Tokyo, Japan},
title = {Semantic {Noise} {Matters} for {Neural} {Natural} {Language} {Generation} },
url = {https://www.aclweb.org/anthology/W19-8652/},
booktitle = {Proceedings of the 12th {International} {Conference} on {Natural} {Language} {Generation} ({INLG} 2019)},
author = {Dušek, Ondřej and Howcroft, David M and Rieser, Verena},
year = {2019},
pages = {421--426},
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/mlsum_de
কনফিগার বিবরণ : MLSum হল একটি বৃহৎ-স্কেল বহুভাষিক সংক্ষিপ্তকরণ ডেটাসেট। এটি অনলাইন নিউজ আউটলেটগুলি থেকে তৈরি করা হয়েছে, এই বিভাজনটি জার্মানকে কেন্দ্র করে৷
ডাউনলোড সাইজ :
345.98 MiB
ডেটাসেটের আকার :
963.60 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'challenge_test_covid' | ৫,০৫৮ |
'challenge_train_sample' | 500 |
'challenge_validation_sample' | 500 |
'test' | 10,695 |
'train' | 220,748 |
'validation' | 11,392 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'date': string,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
'text': string,
'title': string,
'topic': string,
'url': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
তারিখ | টেনসর | স্ট্রিং | ||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
লক্ষ্য | টেনসর | স্ট্রিং | ||
পাঠ্য | টেনসর | স্ট্রিং | ||
শিরোনাম | টেনসর | স্ট্রিং | ||
বিষয় | টেনসর | স্ট্রিং | ||
url | টেনসর | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{scialom-etal-2020-mlsum,
title = "{MLSUM}: The Multilingual Summarization Corpus",
author = {Scialom, Thomas and Dray, Paul-Alexis and Lamprier, Sylvain and Piwowarski, Benjamin and Staiano, Jacopo},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)},
year = {2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/mlsum_es
কনফিগার বিবরণ : MLSum হল একটি বৃহৎ-স্কেল বহুভাষিক সংক্ষিপ্তকরণ ডেটাসেট। এটি অনলাইন নিউজ আউটলেট থেকে তৈরি করা হয়েছে, এই বিভাজনটি স্প্যানিশকে কেন্দ্র করে।
ডাউনলোড সাইজ :
501.27 MiB
ডেটাসেটের আকার :
1.29 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'challenge_test_covid' | 1,938 |
'challenge_train_sample' | 500 |
'challenge_validation_sample' | 500 |
'test' | 13,366 |
'train' | 259,888 |
'validation' | 9,977 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'date': string,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
'text': string,
'title': string,
'topic': string,
'url': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
তারিখ | টেনসর | স্ট্রিং | ||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
লক্ষ্য | টেনসর | স্ট্রিং | ||
পাঠ্য | টেনসর | স্ট্রিং | ||
শিরোনাম | টেনসর | স্ট্রিং | ||
বিষয় | টেনসর | স্ট্রিং | ||
url | টেনসর | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{scialom-etal-2020-mlsum,
title = "{MLSUM}: The Multilingual Summarization Corpus",
author = {Scialom, Thomas and Dray, Paul-Alexis and Lamprier, Sylvain and Piwowarski, Benjamin and Staiano, Jacopo},
booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)},
year = {2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/schema_guided_dialog
কনফিগারেশনের বিবরণ : স্কিমা-গাইডেড ডায়ালগ (SGD) ডেটাসেটে একজন মানুষ এবং একজন ভার্চুয়াল সহকারীর মধ্যে 18K মাল্টি-ডোমেন টাস্ক-ওরিয়েন্টেড ডায়ালগ রয়েছে, যা ব্যাঙ্ক এবং ইভেন্ট থেকে মিডিয়া, ক্যালেন্ডার, ভ্রমণ এবং আবহাওয়া পর্যন্ত 17টি ডোমেন কভার করে।
ডাউনলোড সাইজ :
17.00 MiB
ডেটাসেটের আকার :
201.19 MiB
স্বয়ংক্রিয়-ক্যাশেড ( ডকুমেন্টেশন ): হ্যাঁ (চ্যালেঞ্জ_টেস্ট_ব্যাকট্রান্সলেশন, চ্যালেঞ্জ_টেস্ট_বিএফপি02, চ্যালেঞ্জ_টেস্ট_বিএফপি05, চ্যালেঞ্জ_টেস্ট_নোপঙ্ক, চ্যালেঞ্জ_টেস্ট_স্ক্র্যাম্বল, চ্যালেঞ্জ_ট্রেন_নমুনা, চ্যালেঞ্জ_ভ্যালিডেশন_নমুনা, পরীক্ষা, বৈধতা), শুধুমাত্র তখনই যখন
shuffle_files=False
(ট্রান্সলেশন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'challenge_test_backtranslation' | 500 |
'challenge_test_bfp02' | 500 |
'challenge_test_bfp05' | 500 |
'challenge_test_nopunc' | 500 |
'challenge_test_scramble' | 500 |
'challenge_train_sample' | 500 |
'challenge_validation_sample' | 500 |
'test' | 10,000 |
'train' | 164,982 |
'validation' | 10,000 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'context': Sequence(string),
'dialog_acts': Sequence({
'act': ClassLabel(shape=(), dtype=int64, num_classes=18),
'slot': string,
'values': Sequence(string),
}),
'dialog_id': string,
'gem_id': string,
'gem_parent_id': string,
'prompt': string,
'references': Sequence(string),
'service': string,
'target': string,
'turn_id': int32,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
প্রসঙ্গ | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
dialog_acts | ক্রম | |||
dialog_acts/act | ক্লাসলেবেল | int64 | ||
dialog_acts/slot | টেনসর | স্ট্রিং | ||
dialog_acts/values | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
dialog_id | টেনসর | স্ট্রিং | ||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
শীঘ্র | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সেবা | টেনসর | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
turn_id | টেনসর | int32 |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{rastogi2019towards,
title={Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset},
author={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav},
journal={arXiv preprint arXiv:1909.05855},
year={2019}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
মণি/টোটো
কনফিগার বিবরণ : ToTTo হল একটি টেবিল-টু-টেক্সট NLG টাস্ক। কাজটি নিম্নরূপ: সারি নাম, কলামের নাম এবং টেবিলের ঘরগুলি সহ একটি উইকিপিডিয়া টেবিল দেওয়া হয়েছে, যেখানে সেলগুলির একটি উপসেট হাইলাইট করা হয়েছে, টেবিলের হাইলাইট করা অংশের জন্য একটি প্রাকৃতিক ভাষা বর্ণনা তৈরি করুন।
ডাউনলোড সাইজ :
180.75 MiB
ডেটাসেটের আকার :
645.86 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'challenge_test_scramble' | 500 |
'challenge_train_sample' | 500 |
'challenge_validation_sample' | 500 |
'test' | ৭,৭০০ |
'train' | 121,153 |
'validation' | ৭,৭০০ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'example_id': string,
'gem_id': string,
'gem_parent_id': string,
'highlighted_cells': Sequence(Sequence(int32)),
'overlap_subset': string,
'references': Sequence(string),
'sentence_annotations': Sequence({
'final_sentence': string,
'original_sentence': string,
'sentence_after_ambiguity': string,
'sentence_after_deletion': string,
}),
'table': Sequence(Sequence({
'column_span': int32,
'is_header': bool,
'row_span': int32,
'value': string,
})),
'table_page_title': string,
'table_section_text': string,
'table_section_title': string,
'table_webpage_url': string,
'target': string,
'totto_id': int32,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
উদাহরণ_আইডি | টেনসর | স্ট্রিং | ||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
হাইলাইট করা_কোষ | সিকোয়েন্স(সিকোয়েন্স(টেনসর)) | (কোনটিই নয়) | int32 | |
overlap_subset | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
বাক্য_টীকা | ক্রম | |||
বাক্য_টীকা/অন্তিম_বাক্য | টেনসর | স্ট্রিং | ||
বাক্য_টীকা/মূল_বাক্য | টেনসর | স্ট্রিং | ||
বাক্য_টীকা/বাক্য_পরবর্তী_অস্পষ্টতা | টেনসর | স্ট্রিং | ||
বাক্য_টীকা/বাক্য_পর_মোছা | টেনসর | স্ট্রিং | ||
টেবিল | ক্রম | |||
টেবিল/কলাম_স্প্যান | টেনসর | int32 | ||
টেবিল/is_header | টেনসর | bool | ||
টেবিল/সারি_স্প্যান | টেনসর | int32 | ||
টেবিল/মান | টেনসর | স্ট্রিং | ||
টেবিল_পৃষ্ঠা_শিরোনাম | টেনসর | স্ট্রিং | ||
টেবিল_বিভাগ_পাঠ্য | টেনসর | স্ট্রিং | ||
টেবিল_বিভাগ_শিরোনাম | টেনসর | স্ট্রিং | ||
table_webpage_url | টেনসর | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
totto_id | টেনসর | int32 |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{parikh2020totto,
title=ToTTo: A Controlled Table-To-Text Generation Dataset,
author={Parikh, Ankur and Wang, Xuezhi and Gehrmann, Sebastian and Faruqui, Manaal and Dhingra, Bhuwan and Yang, Diyi and Das, Dipanjan},
booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)},
pages={1173--1186},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/web_nlg_en
কনফিগারেশনের বিবরণ : WebNLG হল একটি দ্বি-ভাষিক ডেটাসেট (ইংরেজি, রাশিয়ান) সমান্তরাল DBpedia ট্রিপল সেট এবং ছোট পাঠ্য যা প্রায় 450 টি ভিন্ন DBpedia বৈশিষ্ট্য কভার করে। WebNLG ডেটা মূলত সংক্ষিপ্ত টেক্সট তৈরি করতে এবং মাইক্রো-প্ল্যানিং পরিচালনা করতে সক্ষম RDF verbalisers-এর বিকাশকে উন্নীত করার জন্য তৈরি করা হয়েছিল।
ডাউনলোড সাইজ :
12.57 MiB
ডেটাসেটের আকার :
19.91 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'challenge_test_numbers' | 500 |
'challenge_test_scramble' | 500 |
'challenge_train_sample' | 502 |
'challenge_validation_sample' | 499 |
'test' | 1,779 |
'train' | 35,426 |
'validation' | 1,667 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'category': string,
'gem_id': string,
'gem_parent_id': string,
'input': Sequence(string),
'references': Sequence(string),
'target': string,
'webnlg_id': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
বিভাগ | টেনসর | স্ট্রিং | ||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
ইনপুট | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
লক্ষ্য | টেনসর | স্ট্রিং | ||
webnlg_id | টেনসর | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{gardent2017creating,
author = "Gardent, Claire
and Shimorina, Anastasia
and Narayan, Shashi
and Perez-Beltrachini, Laura",
title = "Creating Training Corpora for NLG Micro-Planners",
booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
year = "2017",
publisher = "Association for Computational Linguistics",
pages = "179--188",
location = "Vancouver, Canada",
doi = "10.18653/v1/P17-1017",
url = "http://www.aclweb.org/anthology/P17-1017"
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/web_nlg_ru
কনফিগারেশনের বিবরণ : WebNLG হল একটি দ্বি-ভাষিক ডেটাসেট (ইংরেজি, রাশিয়ান) সমান্তরাল DBpedia ট্রিপল সেট এবং ছোট পাঠ্য যা প্রায় 450 টি ভিন্ন DBpedia বৈশিষ্ট্য কভার করে। WebNLG ডেটা মূলত সংক্ষিপ্ত টেক্সট তৈরি করতে এবং মাইক্রো-প্ল্যানিং পরিচালনা করতে সক্ষম RDF verbalisers-এর বিকাশকে উন্নীত করার জন্য তৈরি করা হয়েছিল।
ডাউনলোড সাইজ :
7.49 MiB
ডেটাসেটের আকার :
11.30 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'challenge_test_scramble' | 500 |
'challenge_train_sample' | 501 |
'challenge_validation_sample' | 500 |
'test' | 1,102 |
'train' | 14,630 |
'validation' | 790 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'category': string,
'gem_id': string,
'gem_parent_id': string,
'input': Sequence(string),
'references': Sequence(string),
'target': string,
'webnlg_id': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
বিভাগ | টেনসর | স্ট্রিং | ||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
ইনপুট | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
লক্ষ্য | টেনসর | স্ট্রিং | ||
webnlg_id | টেনসর | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{gardent2017creating,
author = "Gardent, Claire
and Shimorina, Anastasia
and Narayan, Shashi
and Perez-Beltrachini, Laura",
title = "Creating Training Corpora for NLG Micro-Planners",
booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
year = "2017",
publisher = "Association for Computational Linguistics",
pages = "179--188",
location = "Vancouver, Canada",
doi = "10.18653/v1/P17-1017",
url = "http://www.aclweb.org/anthology/P17-1017"
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_auto_asset_turk
কনফিগারেশনের বিবরণ : WikiAuto ইংরেজি উইকিপিডিয়া এবং সাধারণ ইংরেজি উইকিপিডিয়া থেকে বাক্য সরলীকরণ ব্যবস্থাকে প্রশিক্ষণের জন্য একটি সংস্থান হিসাবে সারিবদ্ধ বাক্যের একটি সেট সরবরাহ করে। ASSET এবং TURK হল উচ্চ মানের সরলীকরণ ডেটাসেট যা পরীক্ষার জন্য ব্যবহৃত হয়।
ডাউনলোড সাইজ :
121.01 MiB
ডেটাসেটের আকার :
202.40 MiB
Auto-cached ( documentation ): Yes (challenge_test_asset_backtranslation, challenge_test_asset_bfp02, challenge_test_asset_bfp05, challenge_test_asset_nopunc, challenge_test_turk_backtranslation, challenge_test_turk_bfp02, challenge_test_turk_bfp05, challenge_test_turk_nopunc, challenge_train_sample, challenge_validation_sample, test_asset, test_turk, validation), Only when
shuffle_files=False
(train)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'challenge_test_asset_backtranslation' | 359 |
'challenge_test_asset_bfp02' | 359 |
'challenge_test_asset_bfp05' | 359 |
'challenge_test_asset_nopunc' | 359 |
'challenge_test_turk_backtranslation' | 359 |
'challenge_test_turk_bfp02' | 359 |
'challenge_test_turk_bfp05' | 359 |
'challenge_test_turk_nopunc' | 359 |
'challenge_train_sample' | 500 |
'challenge_validation_sample' | 500 |
'test_asset' | 359 |
'test_turk' | 359 |
'train' | 483,801 |
'validation' | 20,000 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'target': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{jiang-etal-2020-neural,
title = "Neural {CRF} Model for Sentence Alignment in Text Simplification",
author = "Jiang, Chao and
Maddela, Mounica and
Lan, Wuwei and
Zhong, Yang and
Xu, Wei",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.709",
doi = "10.18653/v1/2020.acl-main.709",
pages = "7943--7960",
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/xsum
কনফিগারেশনের বিবরণ : ডেটাসেটটি তার চরম আকারে বিমূর্ত সংক্ষিপ্তসারের কাজের জন্য, এটি একটি একক বাক্যে একটি নথির সংক্ষিপ্তসার সম্পর্কে।
ডাউনলোড সাইজ :
246.31 MiB
ডেটাসেটের আকার :
78.89 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'challenge_test_backtranslation' | 500 |
'challenge_test_bfp_02' | 500 |
'challenge_test_bfp_05' | 500 |
'challenge_test_covid' | 401 |
'challenge_test_nopunc' | 500 |
'challenge_train_sample' | 500 |
'challenge_validation_sample' | 500 |
'test' | 1,166 |
'train' | 23,206 |
'validation' | 1,117 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'document': string,
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'target': string,
'xsum_id': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
নথি | টেনসর | স্ট্রিং | ||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
লক্ষ্য | টেনসর | স্ট্রিং | ||
xsum_id | টেনসর | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{Narayan2018dont,
author = "Shashi Narayan and Shay B. Cohen and Mirella Lapata",
title = "Don't Give Me the Details, Just the Summary! {T}opic-Aware Convolutional Neural Networks for Extreme Summarization",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing ",
year = "2018",
address = "Brussels, Belgium",
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_arabic_ar
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
56.25 MiB
ডেটাসেটের আকার :
291.42 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 5,841 |
'train' | 20,441 |
'validation' | 2,919 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'ar': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'ar': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/ar | পাঠ্য | স্ট্রিং | ||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/ar | পাঠ্য | স্ট্রিং | ||
target_aligned/en | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_chinese_zh
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
31.38 MiB
ডেটাসেটের আকার :
122.06 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 3,775 |
'train' | 13,211 |
'validation' | 1,886 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/zh | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/zh | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_czech_cs
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
13.84 MiB
ডেটাসেটের আকার :
58.05 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,438 |
'train' | ৫,০৩৩ |
'validation' | 718 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/cs | পাঠ্য | স্ট্রিং | ||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/cs | পাঠ্য | স্ট্রিং | ||
target_aligned/en | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_dutch_nl
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
53.88 MiB
ডেটাসেটের আকার :
237.97 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 6,248 |
'train' | 21,866 |
'validation' | 3,123 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'nl': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'nl': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/nl | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/nl | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_english_en
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
112.56 MiB
ডেটাসেটের আকার :
657.51 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 28,614 |
'train' | 99,020 |
'validation' | 13,823 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_french_fr
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
113.26 MiB
ডেটাসেটের আকার :
522.28 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 12,731 |
'train' | 44,556 |
'validation' | ৬,৩৬৪ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/fr | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/fr | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_german_de
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
102.65 MiB
ডেটাসেটের আকার :
452.46 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 11,669 |
'train' | 40,839 |
'validation' | ৫,৮৩৩ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/de | পাঠ্য | স্ট্রিং | ||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/de | পাঠ্য | স্ট্রিং | ||
target_aligned/en | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_hindi_hi
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
20.07 MiB
ডেটাসেটের আকার :
138.06 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,984 |
'train' | 6,942 |
'validation' | 991 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'hi': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'hi': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/hi | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/hi | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_indonesian_id
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
80.08 MiB
ডেটাসেটের আকার :
370.63 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ৯,৪৯৭ |
'train' | 33,237 |
'validation' | 4,747 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/id | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/id | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_italian_it
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোডের আকার :
84.80 MiB
ডেটাসেটের আকার :
374.40 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 10,189 |
'train' | 35,661 |
'validation' | ৫,০৯৩ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'it': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'it': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/it | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/it | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_japanese_ja
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
21.75 MiB
ডেটাসেটের আকার :
103.19 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,530 |
'train' | ৮,৮৫৩ |
'validation' | 1,264 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ja': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ja': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/ja | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/ja | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_korean_ko
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোডের আকার :
22.26 MiB
ডেটাসেটের আকার :
102.35 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,436 |
'train' | ৮,৫২৪ |
'validation' | 1,216 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ko': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ko': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/ko | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/ko | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_portuguese_pt
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
131.17 MiB
ডেটাসেটের আকার :
570.46 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 16,331 |
'train' | 57,159 |
'validation' | 8,165 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/pt | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/pt | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_russian_ru
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
101.36 MiB
ডেটাসেটের আকার :
564.69 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 10,580 |
'train' | 37,028 |
'validation' | ৫,২৮৮ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/ru | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/ru | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_spanish_es
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
189.06 MiB
ডেটাসেটের আকার :
849.75 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 22,632 |
'train' | 79,212 |
'validation' | 11,316 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'es': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'es': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/es | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/es | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_thai_th
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোডের আকার :
28.60 MiB
ডেটাসেটের আকার :
193.77 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,950 |
'train' | 10,325 |
'validation' | 1,475 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'th': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'th': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/th | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/th | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_turkish_tr
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড সাইজ :
6.73 MiB
ডেটাসেটের আকার :
30.75 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 900 |
'train' | 3,148 |
'validation' | 449 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/tr | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/tr | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."
gem/wiki_lingua_vietnamese_vi
কনফিগারেশনের বিবরণ : উইকিলিংগুয়া হল একটি বড় মাপের, বহুভাষিক ডেটাসেট যা আন্তঃভাষিক বিমূর্ত সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য।
ডাউনলোড আকার :
36.27 MiB
ডেটাসেটের আকার :
179.77 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 3,917 |
'train' | 13,707 |
'validation' | 1,957 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'gem_id': string,
'gem_parent_id': string,
'references': Sequence(string),
'source': string,
'source_aligned': Translation({
'en': Text(shape=(), dtype=string),
'vi': Text(shape=(), dtype=string),
}),
'target': string,
'target_aligned': Translation({
'en': Text(shape=(), dtype=string),
'vi': Text(shape=(), dtype=string),
}),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
gem_id | টেনসর | স্ট্রিং | ||
gem_parent_id | টেনসর | স্ট্রিং | ||
তথ্যসূত্র | ক্রম (টেনসর) | (কোনটিই নয়,) | স্ট্রিং | |
সূত্র | টেনসর | স্ট্রিং | ||
source_aligned | অনুবাদ | |||
source_aligned/en | পাঠ্য | স্ট্রিং | ||
source_aligned/vi | পাঠ্য | স্ট্রিং | ||
লক্ষ্য | টেনসর | স্ট্রিং | ||
target_aligned | অনুবাদ | |||
target_aligned/en | পাঠ্য | স্ট্রিং | ||
target_aligned/vi | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{ladhak-wiki-2020,
title=WikiLingua: A New Benchmark Dataset for Multilingual Abstractive Summarization,
author={Faisal Ladhak, Esin Durmus, Claire Cardie and Kathleen McKeown},
booktitle={Findings of EMNLP, 2020},
year={2020}
}
@article{gehrmann2021gem,
author = {Sebastian Gehrmann and
Tosin P. Adewumi and
Karmanya Aggarwal and
Pawan Sasanka Ammanamanchi and
Aremu Anuoluwapo and
Antoine Bosselut and
Khyathi Raghavi Chandu and
Miruna{-}Adriana Clinciu and
Dipanjan Das and
Kaustubh D. Dhole and
Wanyu Du and
Esin Durmus and
Ondrej Dusek and
Chris Emezue and
Varun Gangal and
Cristina Garbacea and
Tatsunori Hashimoto and
Yufang Hou and
Yacine Jernite and
Harsh Jhamtani and
Yangfeng Ji and
Shailza Jolly and
Dhruv Kumar and
Faisal Ladhak and
Aman Madaan and
Mounica Maddela and
Khyati Mahajan and
Saad Mahamood and
Bodhisattwa Prasad Majumder and
Pedro Henrique Martins and
Angelina McMillan{-}Major and
Simon Mille and
Emiel van Miltenburg and
Moin Nadeem and
Shashi Narayan and
Vitaly Nikolaev and
Rubungo Andre Niyongabo and
Salomey Osei and
Ankur P. Parikh and
Laura Perez{-}Beltrachini and
Niranjan Ramesh Rao and
Vikas Raunak and
Juan Diego Rodriguez and
Sashank Santhanam and
Jo{\~{a} }o Sedoc and
Thibault Sellam and
Samira Shaikh and
Anastasia Shimorina and
Marco Antonio Sobrevilla Cabezudo and
Hendrik Strobelt and
Nishant Subramani and
Wei Xu and
Diyi Yang and
Akhila Yerukola and
Jiawei Zhou},
title = {The {GEM} Benchmark: Natural Language Generation, its Evaluation and
Metrics},
journal = {CoRR},
volume = {abs/2102.01672},
year = {2021},
url = {https://arxiv.org/abs/2102.01672},
archivePrefix = {arXiv},
eprint = {2102.01672}
}
Note that each GEM dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."