সোর্স কোড :
tfds.text.scrolls.Scrolls
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
বৈশিষ্ট্য গঠন :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'input': Text(shape=(), dtype=string),
'output': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
আইডি | পাঠ্য | স্ট্রিং | ||
ইনপুট | পাঠ্য | স্ট্রিং | ||
আউটপুট | পাঠ্য | স্ট্রিং | ||
পিড | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('input', 'output')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
scrolls/summ_screen_fd (ডিফল্ট কনফিগারেশন)
- বর্ণনা :
স্ক্রোল: দীর্ঘ ভাষার অনুক্রমের উপর মানসম্মত তুলনা। প্রাকৃতিক ভাষার একটি স্যুট tfds.core. যার জন্য দীর্ঘ পাঠ্যের উপর যুক্তির প্রয়োজন হয়। https://scrolls-benchmark.com/ summ_screen_fd উপসেট
কনফিগার বিবরণ : summ_screen_fd উপসেট
ডাউনলোড সাইজ :
48.67 MiB
ডেটাসেটের আকার :
132.48 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 337 |
'train' | ৩,৬৭৩ |
'validation' | ৩৩৮ |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@misc{chen2021summscreen,
title={SummScreen: A Dataset for Abstractive Screenplay Summarization},
author={Mingda Chen and Zewei Chu and Sam Wiseman and Kevin Gimpel},
year={2021},
eprint={2104.07091},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@misc{shaham2022scrolls,
title={SCROLLS: Standardized CompaRison Over Long Language Sequences},
author={Uri Shaham and Elad Segal and Maor Ivgi and Avia Efrat and Ori Yoran and Adi Haviv and Ankit Gupta and Wenhan Xiong and Mor Geva and Jonathan Berant and Omer Levy},
year={2022},
eprint={2201.03533},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Note that each SCROLLS dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
স্ক্রল/ক্যাস্পার
- বর্ণনা :
স্ক্রোল: দীর্ঘ ভাষার অনুক্রমের উপর মানসম্মত তুলনা। প্রাকৃতিক ভাষার একটি স্যুট tfds.core. যার জন্য দীর্ঘ পাঠ্যের উপর যুক্তির প্রয়োজন হয়। https://scrolls-benchmark.com/ qasper উপসেট
কনফিগারেশনের বিবরণ : কাস্পার সাবসেট
হোমপেজ : https://allenai.org/project/qasper
ডাউনলোড আকার :
19.20 MiB
ডেটাসেটের আকার :
131.60 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,399 |
'train' | 2,567 |
'validation' | 1,726 |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{dasigi-etal-2021-dataset,
title = "A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers",
author = "Dasigi, Pradeep and
Lo, Kyle and
Beltagy, Iz and
Cohan, Arman and
Smith, Noah A. and
Gardner, Matt",
booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies",
month = jun,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.naacl-main.365",
doi = "10.18653/v1/2021.naacl-main.365",
pages = "4599--4610",
abstract = "Readers of academic research papers often read with the goal of answering specific questions. Question Answering systems that can answer those questions can make consumption of the content much more efficient. However, building such tools requires data that reflect the difficulty of the task arising from complex reasoning about claims made in multiple parts of a paper. In contrast, existing information-seeking question answering tfds.core.usually contain questions about generic factoid-type information. We therefore present Qasper, a dataset of 5049 questions over 1585 Natural Language Processing papers. Each question is written by an NLP practitioner who read only the title and abstract of the corresponding paper, and the question seeks information present in the full text. The questions are then answered by a separate set of NLP practitioners who also provide supporting evidence to answers. We find that existing models that do well on other QA tasks do not perform well on answering these questions, underperforming humans by at least 27 F1 points when answering them from entire papers, motivating further research in document-grounded, information-seeking QA, which our dataset is designed to facilitate.",
}
@misc{shaham2022scrolls,
title={SCROLLS: Standardized CompaRison Over Long Language Sequences},
author={Uri Shaham and Elad Segal and Maor Ivgi and Avia Efrat and Ori Yoran and Adi Haviv and Ankit Gupta and Wenhan Xiong and Mor Geva and Jonathan Berant and Omer Levy},
year={2022},
eprint={2201.03533},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Note that each SCROLLS dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
scrolls/qmsum
- বর্ণনা :
স্ক্রোল: দীর্ঘ ভাষার অনুক্রমের উপর মানসম্মত তুলনা। প্রাকৃতিক ভাষার একটি স্যুট tfds.core. যার জন্য দীর্ঘ পাঠ্যের উপর যুক্তির প্রয়োজন হয়। https://scrolls-benchmark.com/ qmsum উপসেট
কনফিগার বিবরণ : qmsum উপসেট
হোমপেজ : https://github.com/Yale-LILY/QMSum
ডাউনলোড সাইজ :
26.02 MiB
ডেটাসেটের আকার :
97.86 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 281 |
'train' | 1,257 |
'validation' | 272 |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{zhong-etal-2021-qmsum,
title = "{QMS}um: A New Benchmark for Query-based Multi-domain Meeting Summarization",
author = "Zhong, Ming and
Yin, Da and
Yu, Tao and
Zaidi, Ahmad and
Mutuma, Mutethia and
Jha, Rahul and
Awadallah, Ahmed Hassan and
Celikyilmaz, Asli and
Liu, Yang and
Qiu, Xipeng and
Radev, Dragomir",
booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies",
month = jun,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.naacl-main.472",
doi = "10.18653/v1/2021.naacl-main.472",
pages = "5905--5921",
abstract = "Meetings are a key component of human collaboration. As increasing numbers of meetings are recorded and transcribed, meeting summaries have become essential to remind those who may or may not have attended the meetings about the key decisions made and the tasks to be completed. However, it is hard to create a single short summary that covers all the content of a long meeting involving multiple people and topics. In order to satisfy the needs of different types of users, we define a new query-based multi-domain meeting summarization task, where models have to select and summarize relevant spans of meetings in response to a query, and we introduce QMSum, a new benchmark for this task. QMSum consists of 1,808 query-summary pairs over 232 meetings in multiple domains. Besides, we investigate a locate-then-summarize method and evaluate a set of strong summarization baselines on the task. Experimental results and manual analysis reveal that QMSum presents significant challenges in long meeting summarization for future research. Dataset is available at \url{https://github.com/Yale-LILY/QMSum}.",
}
@misc{shaham2022scrolls,
title={SCROLLS: Standardized CompaRison Over Long Language Sequences},
author={Uri Shaham and Elad Segal and Maor Ivgi and Avia Efrat and Ori Yoran and Adi Haviv and Ankit Gupta and Wenhan Xiong and Mor Geva and Jonathan Berant and Omer Levy},
year={2022},
eprint={2201.03533},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Note that each SCROLLS dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
scrolls/narrative_qa
- বর্ণনা :
স্ক্রোল: দীর্ঘ ভাষার অনুক্রমের উপর মানসম্মত তুলনা। প্রাকৃতিক ভাষার একটি স্যুট tfds.core. যার জন্য দীর্ঘ পাঠ্যের উপর যুক্তির প্রয়োজন হয়। https://scrolls-benchmark.com/ narrative_qa উপসেট
কনফিগার বিবরণ : narrative_qa উপসেট
হোমপেজ : https://deepmind.com/research/publications/narrativeqa-reading-comprehension-challenge
ডাউনলোড আকার :
7.50 GiB
ডেটাসেটের আকার :
21.56 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 10,306 |
'train' | 55,003 |
'validation' | ৫,৮৭৮ |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{kovcisky2018narrativeqa,
title={The narrativeqa reading comprehension challenge},
author={Ko{\v{c} }isk{\'y}, Tom{\'a}{\v{s} } and Schwarz, Jonathan and Blunsom, Phil and Dyer, Chris and Hermann, Karl Moritz and Melis, G{\'a}bor and Grefenstette, Edward},
journal={Transactions of the Association for Computational Linguistics},
volume={6},
pages={317--328},
year={2018},
publisher={MIT Press}
}
@misc{shaham2022scrolls,
title={SCROLLS: Standardized CompaRison Over Long Language Sequences},
author={Uri Shaham and Elad Segal and Maor Ivgi and Avia Efrat and Ori Yoran and Adi Haviv and Ankit Gupta and Wenhan Xiong and Mor Geva and Jonathan Berant and Omer Levy},
year={2022},
eprint={2201.03533},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Note that each SCROLLS dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
scrolls/gov_report
- বর্ণনা :
স্ক্রোল: দীর্ঘ ভাষার অনুক্রমের উপর মানসম্মত তুলনা। প্রাকৃতিক ভাষার একটি স্যুট tfds.core. যার জন্য দীর্ঘ পাঠ্যের উপর যুক্তির প্রয়োজন হয়। https://scrolls-benchmark.com/ gov_report উপসেট
কনফিগারেশনের বিবরণ : gov_report উপসেট
হোমপেজ : https://gov-report-data.github.io/
ডাউনলোড সাইজ :
301.58 MiB
ডেটাসেটের আকার :
1.01 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 973 |
'train' | 17,457 |
'validation' | 972 |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{huang-etal-2021-efficient,
title = "Efficient Attentions for Long Document Summarization",
author = "Huang, Luyang and
Cao, Shuyang and
Parulian, Nikolaus and
Ji, Heng and
Wang, Lu",
booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies",
month = jun,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.naacl-main.112",
doi = "10.18653/v1/2021.naacl-main.112",
pages = "1419--1436",
abstract = "The quadratic computational and memory complexities of large Transformers have limited their scalability for long document summarization. In this paper, we propose Hepos, a novel efficient encoder-decoder attention with head-wise positional strides to effectively pinpoint salient information from the source. We further conduct a systematic study of existing efficient self-attentions. Combined with Hepos, we are able to process ten times more tokens than existing models that use full attentions. For evaluation, we present a new dataset, GovReport, with significantly longer documents and summaries. Results show that our models produce significantly higher ROUGE scores than competitive comparisons, including new state-of-the-art results on PubMed. Human evaluation also shows that our models generate more informative summaries with fewer unfaithful errors.",
}
@misc{shaham2022scrolls,
title={SCROLLS: Standardized CompaRison Over Long Language Sequences},
author={Uri Shaham and Elad Segal and Maor Ivgi and Avia Efrat and Ori Yoran and Adi Haviv and Ankit Gupta and Wenhan Xiong and Mor Geva and Jonathan Berant and Omer Levy},
year={2022},
eprint={2201.03533},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Note that each SCROLLS dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
scrolls/contract_nli
- বর্ণনা :
স্ক্রোল: দীর্ঘ ভাষার অনুক্রমের উপর মানসম্মত তুলনা। প্রাকৃতিক ভাষার একটি স্যুট tfds.core. যার জন্য দীর্ঘ পাঠ্যের উপর যুক্তির প্রয়োজন হয়। https://scrolls-benchmark.com/ contract_nli উপসেট
কনফিগার বিবরণ : চুক্তি_এনএলআই উপসেট
ডাউনলোড সাইজ :
4.64 MiB
ডেটাসেটের আকার :
112.56 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,091 |
'train' | 7,191 |
'validation' | 1,037 |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{koreeda-manning-2021-contractnli,
title = "ContractNLI: A Dataset for Document-level Natural Language Inference for Contracts",
author = "Koreeda, Yuta and
Manning, Christopher D.",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021",
year = "2021",
publisher = "Association for Computational Linguistics"
}
@misc{shaham2022scrolls,
title={SCROLLS: Standardized CompaRison Over Long Language Sequences},
author={Uri Shaham and Elad Segal and Maor Ivgi and Avia Efrat and Ori Yoran and Adi Haviv and Ankit Gupta and Wenhan Xiong and Mor Geva and Jonathan Berant and Omer Levy},
year={2022},
eprint={2201.03533},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Note that each SCROLLS dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
স্ক্রল/গুণমান
- বর্ণনা :
স্ক্রোল: দীর্ঘ ভাষার অনুক্রমের উপর মানসম্মত তুলনা। প্রাকৃতিক ভাষার একটি স্যুট tfds.core. যার জন্য দীর্ঘ পাঠ্যের উপর যুক্তির প্রয়োজন হয়। https://scrolls-benchmark.com/ গুণমান উপসেট
কনফিগারেশনের বিবরণ : মানের উপসেট
হোমপেজ : https://github.com/nyu-mll/quality
ডাউনলোডের আকার :
29.80 MiB
ডেটাসেটের আকার :
163.54 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,128 |
'train' | 2,523 |
'validation' | 2,086 |
- উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{pang2021quality,
title={ {QuALITY}: Question Answering with Long Input Texts, Yes!},
author={Pang, Richard Yuanzhe and Parrish, Alicia and Joshi, Nitish and Nangia, Nikita and Phang, Jason and Chen, Angelica and Padmakumar, Vishakh and Ma, Johnny and Thompson, Jana and He, He and Bowman, Samuel R.},
journal={arXiv preprint arXiv:2112.08608},
year={2021}
}
@misc{shaham2022scrolls,
title={SCROLLS: Standardized CompaRison Over Long Language Sequences},
author={Uri Shaham and Elad Segal and Maor Ivgi and Avia Efrat and Ori Yoran and Adi Haviv and Ankit Gupta and Wenhan Xiong and Mor Geva and Jonathan Berant and Omer Levy},
year={2022},
eprint={2201.03533},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Note that each SCROLLS dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.