- Описание :
Тест UnifiedQA состоит из 20 наборов данных для ответов на основные вопросы (QA) (каждый из которых может иметь несколько версий), предназначенных для разных форматов, а также для различных сложных лингвистических явлений. Эти наборы данных сгруппированы в несколько форматов/категорий, в том числе: экстрактивный контроль качества, абстрактный контроль качества, контроль качества с множественным выбором и контроль качества «да/нет». Кроме того, наборы контрастов используются для нескольких наборов данных (обозначаемых как « наборы контрастов»). Эти оценочные наборы представляют собой возмущения, созданные экспертами, которые отклоняются от шаблонов, общих для исходного набора данных. Для нескольких наборов данных, которые не поставляются с абзацами доказательств, включены два варианта: один, в котором наборы данных используются как есть, и другой, в котором используются абзацы, полученные через информационно-поисковую систему, в качестве дополнительных доказательств, обозначенных тегами «_ir».
Дополнительную информацию можно найти по адресу: https://github.com/allenai/unifiedqa .
Домашняя страница : https://github.com/allenai/unifiedqa
Исходный код :
tfds.text.unifiedqa.UnifiedQA
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Структура функции :
FeaturesDict({
'input': string,
'output': string,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
вход | Тензор | нить | ||
выход | Тензор | нить |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
unified_qa/ai2_science_elementary (конфигурация по умолчанию)
Описание конфигурации : набор данных AI2 Science Questions состоит из вопросов, используемых в оценках учащихся в США в начальной и средней школе. Каждый вопрос представляет собой формат с 4 вариантами ответов и может включать или не включать элемент диаграммы. Этот набор состоит из вопросов, используемых для уровней начальной школы.
Размер загрузки :
345.59 KiB
Размер набора данных :
390.02 KiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 542 |
'train' | 623 |
'validation' | 123 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
http://data.allenai.org/ai2-science-questions
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/ai2_science_middle
Описание конфигурации : набор данных AI2 Science Questions состоит из вопросов, используемых в оценках учащихся в США в начальной и средней школе. Каждый вопрос представляет собой формат с 4 вариантами ответов и может включать или не включать элемент диаграммы. Этот набор состоит из вопросов, используемых для среднего школьного возраста.
Размер загрузки :
428.41 KiB
Размер набора данных :
477.40 KiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 679 |
'train' | 605 |
'validation' | 125 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
http://data.allenai.org/ai2-science-questions
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/ambigqa
Описание конфигурации : AmbigQA — это задача для ответов на вопросы с открытым доменом, которая включает в себя поиск всех правдоподобных ответов, а затем переписывание вопроса для каждого из них, чтобы устранить двусмысленность.
Размер загрузки :
2.27 MiB
Размер набора данных :
3.04 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 19 806 |
'validation' | 5674 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{min-etal-2020-ambigqa,
title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
author = "Min, Sewon and
Michael, Julian and
Hajishirzi, Hannaneh and
Zettlemoyer, Luke",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.emnlp-main.466",
doi = "10.18653/v1/2020.emnlp-main.466",
pages = "5783--5797",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_easy
Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «легких» вопросов.
Размер загрузки :
1.24 MiB
Размер набора данных :
1.42 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2376 |
'train' | 2251 |
'validation' | 570 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_easy_dev
Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «легких» вопросов.
Размер загрузки :
1.24 MiB
Размер набора данных :
1.42 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2376 |
'train' | 2251 |
'validation' | 570 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_easy_with_ir
Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «легких» вопросов. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки :
7.00 MiB
Размер набора данных :
7.17 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2376 |
'train' | 2251 |
'validation' | 570 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_easy_with_ir_dev
Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «легких» вопросов. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки :
7.00 MiB
Размер набора данных :
7.17 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2376 |
'train' | 2251 |
'validation' | 570 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_hard
Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «трудных» вопросов.
Размер загрузки :
758.03 KiB
Размер набора данных :
848.28 KiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1172 |
'train' | 1119 |
'validation' | 299 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_hard_dev
Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «трудных» вопросов.
Размер загрузки :
758.03 KiB
Размер набора данных :
848.28 KiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1172 |
'train' | 1119 |
'validation' | 299 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_hard_with_ir
Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «трудных» вопросов. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки :
3.53 MiB
Размер набора данных :
3.62 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1172 |
'train' | 1119 |
'validation' | 299 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_hard_with_ir_dev
Описание конфигурации : этот набор данных состоит из реальных вопросов по науке с несколькими вариантами ответов на уровне начальной школы, собранных для поощрения исследований в области продвинутых ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Этот набор состоит из «трудных» вопросов. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки :
3.53 MiB
Размер набора данных :
3.62 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1172 |
'train' | 1119 |
'validation' | 299 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/boolq
Описание конфигурации : BoolQ — это набор данных для ответов на вопросы «да/нет». Эти вопросы возникают естественным образом — они генерируются без подсказок и без каких-либо ограничений. Каждый пример представляет собой триплет (вопрос, отрывок, ответ) с заголовком страницы в качестве необязательного дополнительного контекста. Настройка классификации текстовых пар аналогична существующим задачам вывода на естественном языке.
Размер загрузки :
7.77 MiB
Размер набора данных :
8.20 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 9427 |
'validation' | 3270 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{clark-etal-2019-boolq,
title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
author = "Clark, Christopher and
Lee, Kenton and
Chang, Ming-Wei and
Kwiatkowski, Tom and
Collins, Michael and
Toutanova, Kristina",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1300",
doi = "10.18653/v1/N19-1300",
pages = "2924--2936",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/boolq_np
Описание конфигурации : BoolQ — это набор данных для ответов на вопросы «да/нет». Эти вопросы возникают естественным образом — они генерируются без подсказок и без каких-либо ограничений. Каждый пример представляет собой триплет (вопрос, отрывок, ответ) с заголовком страницы в качестве необязательного дополнительного контекста. Настройка классификации текстовых пар аналогична существующим задачам вывода на естественном языке. Эта версия добавляет к исходной версии естественные возмущения.
Размер загрузки :
10.80 MiB
Размер набора данных :
11.40 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 9727 |
'validation' | 7 596 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{khashabi-etal-2020-bang,
title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
author = "Khashabi, Daniel and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.emnlp-main.12",
doi = "10.18653/v1/2020.emnlp-main.12",
pages = "163--170",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/здравый смыслqa
Описание конфигурации : CommonsenseQA — это новый набор данных для ответов на вопросы с несколькими вариантами ответов, который требует различных типов знаний здравого смысла для прогнозирования правильных ответов. Он содержит вопросы с одним правильным ответом и четырьмя отвлекающими ответами.
Размер загрузки :
1.79 MiB
Размер набора данных :
2.19 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1140 |
'train' | 9741 |
'validation' | 1221 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{talmor-etal-2019-commonsenseqa,
title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
author = "Talmor, Alon and
Herzig, Jonathan and
Lourie, Nicholas and
Berant, Jonathan",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1421",
doi = "10.18653/v1/N19-1421",
pages = "4149--4158",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/здравый смыслqa_test
Описание конфигурации : CommonsenseQA — это новый набор данных для ответов на вопросы с несколькими вариантами ответов, который требует различных типов знаний здравого смысла для прогнозирования правильных ответов. Он содержит вопросы с одним правильным ответом и четырьмя отвлекающими ответами.
Размер загрузки :
1.79 MiB
Размер набора данных :
2.19 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1140 |
'train' | 9741 |
'validation' | 1221 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{talmor-etal-2019-commonsenseqa,
title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
author = "Talmor, Alon and
Herzig, Jonathan and
Lourie, Nicholas and
Berant, Jonathan",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1421",
doi = "10.18653/v1/N19-1421",
pages = "4149--4158",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/contrast_sets_boolq
Описание конфигурации : BoolQ — это набор данных для ответов на вопросы «да/нет». Эти вопросы возникают естественным образом — они генерируются без подсказок и без каких-либо ограничений. Каждый пример представляет собой триплет (вопрос, отрывок, ответ) с заголовком страницы в качестве необязательного дополнительного контекста. Настройка классификации текстовых пар аналогична существующим задачам вывода на естественном языке. В этой версии используются контрастные наборы. Эти оценочные наборы представляют собой возмущения, созданные экспертами, которые отклоняются от шаблонов, общих для исходного набора данных.
Размер загрузки :
438.51 KiB
Размер набора данных :
462.35 KiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 340 |
'validation' | 340 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{clark-etal-2019-boolq,
title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
author = "Clark, Christopher and
Lee, Kenton and
Chang, Ming-Wei and
Kwiatkowski, Tom and
Collins, Michael and
Toutanova, Kristina",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1300",
doi = "10.18653/v1/N19-1300",
pages = "2924--2936",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/contrast_sets_drop
Описание конфигурации : DROP — это краудсорсинговый тест QA, созданный злоумышленниками, в котором система должна разрешать ссылки в вопросе, возможно, на несколько входных позиций, и выполнять над ними дискретные операции (такие как сложение, подсчет или сортировка). Эти операции требуют гораздо более полного понимания содержания абзацев, чем это было необходимо для предыдущих наборов данных. В этой версии используются контрастные наборы. Эти оценочные наборы представляют собой возмущения, созданные экспертами, которые отклоняются от шаблонов, общих для исходного набора данных.
Размер загрузки :
2.20 MiB
Размер набора данных :
2.26 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 947 |
'validation' | 947 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{dua-etal-2019-drop,
title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
author = "Dua, Dheeru and
Wang, Yizhong and
Dasigi, Pradeep and
Stanovsky, Gabriel and
Singh, Sameer and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1246",
doi = "10.18653/v1/N19-1246",
pages = "2368--2378",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/contrast_sets_quoref
Описание конфигурации : этот набор данных проверяет способность систем понимания прочитанного к кореференциальным рассуждениям. В этом эталонном тесте выбора диапазона, содержащем вопросы по абзацам из Википедии, система должна разрешить жесткие кореференции, прежде чем выбирать соответствующий диапазон(ы) в абзацах для ответов на вопросы. В этой версии используются контрастные наборы. Эти оценочные наборы представляют собой возмущения, созданные экспертами, которые отклоняются от шаблонов, общих для исходного набора данных.
Размер загрузки :
2.60 MiB
Размер набора данных :
2.65 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 700 |
'validation' | 700 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{dasigi-etal-2019-quoref,
title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
author = "Dasigi, Pradeep and
Liu, Nelson F. and
Marasovi{'c}, Ana and
Smith, Noah A. and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1606",
doi = "10.18653/v1/D19-1606",
pages = "5925--5932",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/contrast_sets_ropes
Описание конфигурации : этот набор данных проверяет способность системы применять знания из отрывка текста к новой ситуации. В системе представлен фоновый отрывок, содержащий причинно-следственную или качественную связь (отношения) (например, «животные-опылители повышают эффективность оплодотворения цветов»), новая ситуация, в которой используется этот фон, и вопросы, требующие рассуждения о влиянии взаимосвязей в фоновый отрывок в контексте ситуации. В этой версии используются контрастные наборы. Эти оценочные наборы представляют собой возмущения, созданные экспертами, которые отклоняются от шаблонов, общих для исходного набора данных.
Размер загрузки :
1.97 MiB
Размер набора данных :
2.04 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 974 |
'validation' | 974 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{lin-etal-2019-reasoning,
title = "Reasoning Over Paragraph Effects in Situations",
author = "Lin, Kevin and
Tafjord, Oyvind and
Clark, Peter and
Gardner, Matt",
booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-5808",
doi = "10.18653/v1/D19-5808",
pages = "58--62",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/дроп
Описание конфигурации : DROP — это краудсорсинговый тест QA, созданный злоумышленниками, в котором система должна разрешать ссылки в вопросе, возможно, на несколько входных позиций, и выполнять над ними дискретные операции (такие как сложение, подсчет или сортировка). Эти операции требуют гораздо более полного понимания содержания абзацев, чем это было необходимо для предыдущих наборов данных.
Размер загрузки :
105.18 MiB
Размер набора данных :
108.16 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 77 399 |
'validation' | 9 536 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{dua-etal-2019-drop,
title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
author = "Dua, Dheeru and
Wang, Yizhong and
Dasigi, Pradeep and
Stanovsky, Gabriel and
Singh, Sameer and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1246",
doi = "10.18653/v1/N19-1246",
pages = "2368--2378",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/mctest
Описание конфигурации : MCTest требует, чтобы компьютеры отвечали на вопросы о понимании прочитанного с несколькими вариантами ответов о вымышленных историях, напрямую решая высокоуровневую цель машинного понимания в открытом домене. Понимание прочитанного может проверить продвинутые способности, такие как причинно-следственные связи и понимание мира, но, будучи множественным выбором, по-прежнему обеспечивает четкую метрику. Будучи вымышленным, ответ обычно можно найти только в самой истории. Истории и вопросы также тщательно ограничены тем, что может понять маленький ребенок, что уменьшает объем знаний о мире, необходимых для выполнения задания.
Размер загрузки :
2.14 MiB
Размер набора данных :
2.20 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1480 |
'validation' | 320 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{richardson-etal-2013-mctest,
title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
author = "Richardson, Matthew and
Burges, Christopher J.C. and
Renshaw, Erin",
booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
month = oct,
year = "2013",
address = "Seattle, Washington, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D13-1020",
pages = "193--203",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/mctest_corrected_the_separator
Описание конфигурации : MCTest требует, чтобы компьютеры отвечали на вопросы о понимании прочитанного с несколькими вариантами ответов о вымышленных историях, напрямую решая высокоуровневую цель машинного понимания в открытом домене. Понимание прочитанного может проверить продвинутые способности, такие как причинно-следственные связи и понимание мира, но, будучи множественным выбором, по-прежнему обеспечивает четкую метрику. Будучи вымышленным, ответ обычно можно найти только в самой истории. Истории и вопросы также тщательно ограничены тем, что может понять маленький ребенок, что уменьшает объем знаний о мире, необходимых для выполнения задания.
Размер загрузки :
2.15 MiB
Размер набора данных :
2.21 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1480 |
'validation' | 320 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{richardson-etal-2013-mctest,
title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
author = "Richardson, Matthew and
Burges, Christopher J.C. and
Renshaw, Erin",
booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
month = oct,
year = "2013",
address = "Seattle, Washington, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D13-1020",
pages = "193--203",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/multirc
Описание конфигурации : MultiRC — это задача на понимание прочитанного, в которой на вопросы можно ответить, только принимая во внимание информацию из нескольких предложений. Вопросы и ответы для этой задачи были получены и проверены в ходе четырехэтапного краудсорсингового эксперимента. Набор данных содержит вопросы для абзацев по 7 различным областям (начальная школьная наука, новости, путеводители, художественные рассказы и т. д.), внося лингвистическое разнообразие в тексты и формулировки вопросов.
Размер загрузки :
897.09 KiB
Размер набора данных :
918.42 KiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 312 |
'validation' | 312 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{khashabi-etal-2018-looking,
title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
author = "Khashabi, Daniel and
Chaturvedi, Snigdha and
Roth, Michael and
Upadhyay, Shyam and
Roth, Dan",
booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
month = jun,
year = "2018",
address = "New Orleans, Louisiana",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N18-1023",
doi = "10.18653/v1/N18-1023",
pages = "252--262",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/повествованиеqa
Описание конфигурации : NarrativeQA — это англоязычный набор данных историй и соответствующих вопросов, предназначенный для проверки понимания прочитанного, особенно в отношении длинных документов.
Размер загрузки :
308.28 MiB
Размер набора данных :
311.22 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 21 114 |
'train' | 65 494 |
'validation' | 6922 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{kocisky-etal-2018-narrativeqa,
title = "The {N}arrative{QA} Reading Comprehension Challenge",
author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} } and
Schwarz, Jonathan and
Blunsom, Phil and
Dyer, Chris and
Hermann, Karl Moritz and
Melis, G{'a}bor and
Grefenstette, Edward",
journal = "Transactions of the Association for Computational Linguistics",
volume = "6",
year = "2018",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q18-1023",
doi = "10.1162/tacl_a_00023",
pages = "317--328",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/narrativeqa_dev
Описание конфигурации : NarrativeQA — это англоязычный набор данных историй и соответствующих вопросов, предназначенный для проверки понимания прочитанного, особенно в отношении длинных документов.
Размер загрузки :
308.28 MiB
Размер набора данных :
311.22 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 21 114 |
'train' | 65 494 |
'validation' | 6922 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{kocisky-etal-2018-narrativeqa,
title = "The {N}arrative{QA} Reading Comprehension Challenge",
author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} } and
Schwarz, Jonathan and
Blunsom, Phil and
Dyer, Chris and
Hermann, Karl Moritz and
Melis, G{'a}bor and
Grefenstette, Edward",
journal = "Transactions of the Association for Computational Linguistics",
volume = "6",
year = "2018",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q18-1023",
doi = "10.1162/tacl_a_00023",
pages = "317--328",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/natural_questions
Описание конфигурации : корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы контроля качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA.
Размер загрузки :
6.95 MiB
Размер набора данных :
9.88 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 96 075 |
'validation' | 2295 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/natural_questions_direct_ans
Описание конфигурации : корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы контроля качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA. Эта версия состоит из вопросов с прямым ответом.
Размер загрузки :
6.82 MiB
Размер набора данных :
10.19 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 6468 |
'train' | 96 676 |
'validation' | 10 693 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/natural_questions_direct_ans_test
Описание конфигурации : корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы контроля качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA. Эта версия состоит из вопросов с прямым ответом.
Размер загрузки :
6.82 MiB
Размер набора данных :
10.19 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 6468 |
'train' | 96 676 |
'validation' | 10 693 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/natural_questions_with_dpr_para
Описание конфигурации : корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы контроля качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA. Эта версия включает дополнительные абзацы (полученные с помощью поискового механизма DPR) для дополнения каждого вопроса.
Размер загрузки :
319.22 MiB
Размер набора данных :
322.91 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 96 676 |
'validation' | 10 693 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/natural_questions_with_dpr_para_test
Описание конфигурации : корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы контроля качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA. Эта версия включает дополнительные абзацы (полученные с помощью поискового механизма DPR) для дополнения каждого вопроса.
Размер загрузки :
306.94 MiB
.Размер набора данных :
310.48 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 6468 |
'train' | 96 676 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/newsqa
Описание конфигурации : NewsQA — это сложный набор данных для машинного понимания, состоящий из пар вопросов и ответов, созданных человеком. Краудворкеры предоставляют вопросы и ответы на основе набора новостных статей CNN, а ответы состоят из фрагментов текста из соответствующих статей.
Размер загрузки :
283.33 MiB
Размер набора данных :
285.94 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 75 882 |
'validation' | 4309 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{trischler-etal-2017-newsqa,
title = "{N}ews{QA}: A Machine Comprehension Dataset",
author = "Trischler, Adam and
Wang, Tong and
Yuan, Xingdi and
Harris, Justin and
Sordoni, Alessandro and
Bachman, Philip and
Suleman, Kaheer",
booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
month = aug,
year = "2017",
address = "Vancouver, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/W17-2623",
doi = "10.18653/v1/W17-2623",
pages = "191--200",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/openbookqa
Описание конфигурации : OpenBookQA стремится продвигать исследования в области расширенных ответов на вопросы, исследуя более глубокое понимание как темы (с существенными фактами, обобщенными в виде открытой книги, также снабженной набором данных), так и языка, на котором она выражена. В частности, это содержит вопросы, требующие многоэтапного рассуждения, использования дополнительных общеизвестных и здравых знаний, а также понимания форматированного текста. OpenBookQA — это новый тип набора данных для ответов на вопросы, созданный по образцу экзаменов с открытой книгой для оценки человеческого понимания предмета.
Размер загрузки :
942.34 KiB
Размер набора данных :
1.11 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 500 |
'train' | 4957 |
'validation' | 500 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/openbookqa_dev
Описание конфигурации : OpenBookQA стремится продвигать исследования в области расширенных ответов на вопросы, исследуя более глубокое понимание как темы (с существенными фактами, обобщенными в виде открытой книги, также снабженной набором данных), так и языка, на котором она выражена. В частности, это содержит вопросы, требующие многоэтапного рассуждения, использования дополнительных общеизвестных и здравых знаний, а также понимания форматированного текста. OpenBookQA — это новый тип набора данных для ответов на вопросы, созданный по образцу экзаменов с открытой книгой для оценки человеческого понимания предмета.
Размер загрузки :
942.34 KiB
Размер набора данных :
1.11 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 500 |
'train' | 4957 |
'validation' | 500 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/openbookqa_with_ir
Описание конфигурации : OpenBookQA стремится продвигать исследования в области расширенных ответов на вопросы, исследуя более глубокое понимание как темы (с существенными фактами, обобщенными в виде открытой книги, также снабженной набором данных), так и языка, на котором она выражена. В частности, это содержит вопросы, требующие многоэтапного рассуждения, использования дополнительных общеизвестных и здравых знаний, а также понимания форматированного текста. OpenBookQA — это новый тип набора данных для ответов на вопросы, созданный по образцу экзаменов с открытой книгой для оценки человеческого понимания предмета. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки :
6.08 MiB
Размер набора данных :
6.28 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 500 |
'train' | 4957 |
'validation' | 500 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/openbookqa_with_ir_dev
Описание конфигурации : OpenBookQA стремится продвигать исследования в области расширенных ответов на вопросы, исследуя более глубокое понимание как темы (с существенными фактами, обобщенными в виде открытой книги, также снабженной набором данных), так и языка, на котором она выражена. В частности, это содержит вопросы, требующие многоэтапного рассуждения, использования дополнительных общеизвестных и здравых знаний, а также понимания форматированного текста. OpenBookQA — это новый тип набора данных для ответов на вопросы, созданный по образцу экзаменов с открытой книгой для оценки человеческого понимания предмета. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки :
6.08 MiB
Размер набора данных :
6.28 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 500 |
'train' | 4957 |
'validation' | 500 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/физический_iqa
Описание конфигурации : это набор данных для сравнительного анализа прогресса в физическом понимании здравого смысла. Основная задача - это ответ на вопрос с множественным выбором: при заданном вопросе q и двух возможных решениях s1, s2 модель или человек должны выбрать наиболее подходящее решение, из которых ровно одно является правильным. Набор данных фокусируется на повседневных ситуациях с предпочтением типичных решений. Набор данных вдохновлен сайтом instructables.com, который предоставляет пользователям инструкции о том, как создавать, создавать, выпекать или манипулировать объектами с использованием повседневных материалов. Аннотаторов просят предоставить семантические возмущения или альтернативные подходы, которые в остальном синтаксически и тематически схожи, чтобы обеспечить целенаправленность физических знаний. Набор данных дополнительно очищается от основных артефактов с помощью алгоритма AFLite.
Размер загрузки :
6.01 MiB
Размер набора данных :
6.59 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 16 113 |
'validation' | 1838 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{bisk2020piqa,
title={Piqa: Reasoning about physical commonsense in natural language},
author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={7432--7439},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/qasc
Описание конфигурации : QASC — это набор данных для ответов на вопросы, в котором основное внимание уделяется составлению предложений. Он состоит из 8 вопросов с несколькими вариантами ответов о школьных науках и содержит 17 миллионов предложений.
Размер загрузки :
1.75 MiB
Размер набора данных :
2.09 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 920 |
'train' | 8134 |
'validation' | 926 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
унифицированный_qa/qasc_test
Описание конфигурации : QASC — это набор данных для ответов на вопросы, в котором основное внимание уделяется составлению предложений. Он состоит из 8 вопросов с несколькими вариантами ответов о школьных науках и содержит 17 миллионов предложений.
Размер загрузки :
1.75 MiB
Размер набора данных :
2.09 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 920 |
'train' | 8134 |
'validation' | 926 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/qasc_with_ir
Описание конфигурации : QASC — это набор данных для ответов на вопросы, в котором основное внимание уделяется составлению предложений. Он состоит из 8 вопросов с несколькими вариантами ответов о школьных науках и содержит 17 миллионов предложений. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки :
16.95 MiB
.Размер набора данных :
17.30 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 920 |
'train' | 8134 |
'validation' | 926 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/qasc_with_ir_test
Описание конфигурации : QASC — это набор данных для ответов на вопросы, в котором основное внимание уделяется составлению предложений. Он состоит из 8 вопросов с несколькими вариантами ответов о школьных науках и содержит 17 миллионов предложений. Эта версия включает абзацы, извлеченные из информационно-поисковой системы в качестве дополнительных доказательств.
Размер загрузки :
16.95 MiB
.Размер набора данных :
17.30 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 920 |
'train' | 8134 |
'validation' | 926 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/quoref
Описание конфигурации : этот набор данных проверяет способность систем понимания прочитанного к кореференциальным рассуждениям. В этом эталонном тесте выбора диапазона, содержащем вопросы по абзацам из Википедии, система должна разрешить жесткие кореференции, прежде чем выбирать соответствующий диапазон(ы) в абзацах для ответов на вопросы.
Размер загрузки :
51.43 MiB
.Размер набора данных :
52.29 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 22 265 |
'validation' | 2768 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{dasigi-etal-2019-quoref,
title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
author = "Dasigi, Pradeep and
Liu, Nelson F. and
Marasovi{'c}, Ana and
Smith, Noah A. and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1606",
doi = "10.18653/v1/D19-1606",
pages = "5925--5932",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/race_string
Описание конфигурации : Race — это крупномасштабный набор данных для понимания прочитанного. Набор данных собран из экзаменов по английскому языку в Китае, которые предназначены для учащихся средних и старших классов. Набор данных можно использовать в качестве обучающего и тестового наборов для машинного понимания.
Размер загрузки :
167.97 MiB
Размер набора данных :
171.23 MiB
.Автоматическое кэширование ( документация ): да (тест, проверка), только если
shuffle_files=False
(поезд)Сплиты :
Расколоть | Примеры |
---|---|
'test' | 4934 |
'train' | 87 863 |
'validation' | 4887 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{lai-etal-2017-race,
title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
author = "Lai, Guokun and
Xie, Qizhe and
Liu, Hanxiao and
Yang, Yiming and
Hovy, Eduard",
booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
month = sep,
year = "2017",
address = "Copenhagen, Denmark",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D17-1082",
doi = "10.18653/v1/D17-1082",
pages = "785--794",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/race_string_dev
Описание конфигурации : Race — это крупномасштабный набор данных для понимания прочитанного. Набор данных собран из экзаменов по английскому языку в Китае, которые предназначены для учащихся средних и старших классов. Набор данных можно использовать в качестве обучающего и тестового наборов для машинного понимания.
Размер загрузки :
167.97 MiB
Размер набора данных :
171.23 MiB
.Автоматическое кэширование ( документация ): да (тест, проверка), только если
shuffle_files=False
(поезд)Сплиты :
Расколоть | Примеры |
---|---|
'test' | 4934 |
'train' | 87 863 |
'validation' | 4887 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{lai-etal-2017-race,
title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
author = "Lai, Guokun and
Xie, Qizhe and
Liu, Hanxiao and
Yang, Yiming and
Hovy, Eduard",
booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
month = sep,
year = "2017",
address = "Copenhagen, Denmark",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D17-1082",
doi = "10.18653/v1/D17-1082",
pages = "785--794",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/веревки
Описание конфигурации : этот набор данных проверяет способность системы применять знания из отрывка текста к новой ситуации. В системе представлен фоновый отрывок, содержащий причинно-следственную или качественную связь (отношения) (например, «животные-опылители повышают эффективность оплодотворения цветов»), новая ситуация, в которой используется этот фон, и вопросы, требующие рассуждения о влиянии взаимосвязей в фоновый отрывок в контексте ситуации.
Размер загрузки :
12.91 MiB
Размер набора данных :
13.35 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 10 924 |
'validation' | 1688 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{lin-etal-2019-reasoning,
title = "Reasoning Over Paragraph Effects in Situations",
author = "Lin, Kevin and
Tafjord, Oyvind and
Clark, Peter and
Gardner, Matt",
booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-5808",
doi = "10.18653/v1/D19-5808",
pages = "58--62",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/social_iqa
Описание конфига : это масштабный бенчмарк для рассуждений здравого смысла о социальных ситуациях. Социальный IQa содержит вопросы с несколькими вариантами ответов для исследования эмоционального и социального интеллекта в различных повседневных ситуациях. С помощью краудсорсинга собираются вопросы здравого смысла, а также правильные и неправильные ответы о социальных взаимодействиях с использованием новой структуры, которая устраняет стилистические артефакты в неправильных ответах, предлагая работникам дать правильный ответ на другой, но связанный вопрос.
Размер загрузки :
7.08 MiB
Размер набора данных :
8.22 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 33 410 |
'validation' | 1954 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{sap-etal-2019-social,
title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
author = "Sap, Maarten and
Rashkin, Hannah and
Chen, Derek and
Le Bras, Ronan and
Choi, Yejin",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1454",
doi = "10.18653/v1/D19-1454",
pages = "4463--4473",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/squad1_1
Описание конфигурации : это набор данных для понимания прочитанного, состоящий из вопросов, заданных краудворкерами по набору статей Википедии, где ответом на каждый вопрос является фрагмент текста из соответствующего отрывка для чтения.
Размер загрузки :
80.62 MiB
Размер набора данных :
83.99 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 87 514 |
'validation' | 10 570 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{rajpurkar-etal-2016-squad,
title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
author = "Rajpurkar, Pranav and
Zhang, Jian and
Lopyrev, Konstantin and
Liang, Percy",
booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2016",
address = "Austin, Texas",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D16-1264",
doi = "10.18653/v1/D16-1264",
pages = "2383--2392",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/squad2
Описание конфигурации : этот набор данных сочетает в себе исходный набор данных Stanford Question Answering Dataset (SQuAD) с вопросами, на которые нет ответов, написанными краудворкерами, чтобы они выглядели похожими на вопросы, на которые можно ответить.
Размер загрузки :
116.56 MiB
Размер набора данных :
121.43 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 130 149 |
'validation' | 11 873 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{rajpurkar-etal-2018-know,
title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
author = "Rajpurkar, Pranav and
Jia, Robin and
Liang, Percy",
booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
month = jul,
year = "2018",
address = "Melbourne, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/P18-2124",
doi = "10.18653/v1/P18-2124",
pages = "784--789",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/winogrande_l
Описание конфигурации : этот набор данных вдохновлен оригинальным дизайном Winograd Schema Challenge, но скорректирован для улучшения как масштаба, так и точности набора данных. Ключевые этапы построения набора данных состоят из (1) тщательно разработанной процедуры краудсорсинга, за которой следует (2) систематическое снижение систематической ошибки с использованием нового алгоритма AfLite, который обобщает определяемые человеком словесные ассоциации до определяемых машиной ассоциаций встраивания. Предоставляются тренировочные комплекты разных размеров. Этот набор соответствует размеру
l
.Размер загрузки :
1.49 MiB
Размер набора данных :
1.83 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 10 234 |
'validation' | 1267 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/winogrande_m
Описание конфигурации : этот набор данных вдохновлен оригинальным дизайном Winograd Schema Challenge, но скорректирован для улучшения как масштаба, так и точности набора данных. Ключевые этапы построения набора данных состоят из (1) тщательно разработанной процедуры краудсорсинга, за которой следует (2) систематическое снижение систематической ошибки с использованием нового алгоритма AfLite, который обобщает определяемые человеком словесные ассоциации до определяемых машиной ассоциаций встраивания. Предоставляются тренировочные комплекты разных размеров. Этот набор соответствует размеру
m
.Размер загрузки :
507.46 KiB
Размер набора данных :
623.15 KiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 2558 |
'validation' | 1267 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/winogrande_s
Описание конфигурации : этот набор данных вдохновлен оригинальным дизайном Winograd Schema Challenge, но скорректирован для улучшения как масштаба, так и точности набора данных. Ключевые этапы построения набора данных состоят из (1) тщательно разработанной процедуры краудсорсинга, за которой следует (2) систематическое снижение систематической ошибки с использованием нового алгоритма AfLite, который обобщает определяемые человеком словесные ассоциации до определяемых машиной ассоциаций встраивания. Предоставляются тренировочные комплекты разных размеров. Этот набор соответствует размеру
s
.Размер загрузки :
479.24 KiB
Размер набора данных :
590.47 KiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1767 |
'train' | 640 |
'validation' | 1267 |
- Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."