- Описание :
TriviaqQA — это набор данных для понимания прочитанного, содержащий более 650 000 троек «вопрос-ответ-доказательство». TriviaqQA включает в себя 95 000 пар вопросов и ответов, созданных энтузиастами викторины, и независимо собранных доказательных документов, в среднем по шесть на вопрос, которые обеспечивают высококачественное удаленное наблюдение за ответами на вопросы.
Дополнительная документация : изучить документы с кодом
Домашняя страница : http://nlp.cs.washington.edu/triviaqa/
Исходный код :
tfds.datasets.trivia_qa.Builder
Версии :
-
1.1.0
(по умолчанию): нет примечаний к выпуску.
-
Структура функции :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
отвечать | ОсобенностиDict | |||
ответ/псевдонимы | Последовательность (текст) | (Никто,) | нить | |
ответ/matched_wiki_entity_name | Текст | нить | ||
ответ/normalized_aliases | Последовательность (текст) | (Никто,) | нить | |
ответ/normalized_matched_wiki_entity_name | Текст | нить | ||
ответ/нормализованное_значение | Текст | нить | ||
ответ/тип | Текст | нить | ||
ответ/значение | Текст | нить | ||
entity_pages | Последовательность | |||
entity_pages/doc_source | Текст | нить | ||
entity_pages/имя файла | Текст | нить | ||
entity_pages/название | Текст | нить | ||
entity_pages/wiki_context | Текст | нить | ||
вопрос | Текст | нить | ||
id_вопроса | Текст | нить | ||
вопрос_источник | Текст | нить | ||
результаты поиска | Последовательность | |||
search_results/описание | Текст | нить | ||
search_results/имя файла | Текст | нить | ||
search_results/ранг | Тензор | int32 | ||
search_results/search_context | Текст | нить | ||
search_results/название | Текст | нить | ||
search_results/url | Текст | нить |
Ключи под наблюдением (см. документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (конфигурация по умолчанию)
Описание конфигурации : пары «вопрос-ответ», где все документы для заданного вопроса содержат строку (строки) ответа. Включает контекст из Википедии и результатов поиска.
Размер загрузки :
2.48 GiB
Размер набора данных :
14.99 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 17 210 |
'train' | 138 384 |
'validation' | 18 669 |
- Примеры ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Описание конфигурации : пары «вопрос-ответ», где все документы для заданного вопроса содержат строку (строки) ответа.
Размер загрузки :
2.48 GiB
Размер набора данных :
196.84 MiB
Автоматическое кэширование ( документация ): да (тест, проверка), только если
shuffle_files=False
(поезд)Сплиты :
Расколоть | Примеры |
---|---|
'test' | 17 210 |
'train' | 138 384 |
'validation' | 18 669 |
- Примеры ( tfds.as_dataframe ):
trivia_qa/нефильтрованное
Описание конфигурации : 110 000 пар вопросов и ответов для проверки качества открытого домена, где не все документы по заданному вопросу содержат строку (строки) ответа. Это делает нефильтрованный набор данных более подходящим для обеспечения качества в стиле IR. Включает контекст из Википедии и результатов поиска.
Размер загрузки :
3.07 GiB
Размер набора данных :
27.27 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 10 832 |
'train' | 87 622 |
'validation' | 11 313 |
- Примеры ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Описание конфигурации : 110 000 пар вопросов и ответов для проверки качества открытого домена, где не все документы по заданному вопросу содержат строку (строки) ответа. Это делает нефильтрованный набор данных более подходящим для обеспечения качества в стиле IR.
Размер загрузки :
603.25 MiB
Размер набора данных :
119.78 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 10 832 |
'train' | 87 622 |
'validation' | 11 313 |
- Примеры ( tfds.as_dataframe ):
- Описание :
TriviaqQA — это набор данных для понимания прочитанного, содержащий более 650 000 троек «вопрос-ответ-доказательство». TriviaqQA включает в себя 95 000 пар вопросов и ответов, созданных энтузиастами викторины, и независимо собранных доказательных документов, в среднем по шесть на вопрос, которые обеспечивают высококачественное удаленное наблюдение за ответами на вопросы.
Дополнительная документация : изучить документы с кодом
Домашняя страница : http://nlp.cs.washington.edu/triviaqa/
Исходный код :
tfds.datasets.trivia_qa.Builder
Версии :
-
1.1.0
(по умолчанию): нет примечаний к выпуску.
-
Структура функции :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
отвечать | ОсобенностиDict | |||
ответ/псевдонимы | Последовательность (текст) | (Никто,) | нить | |
ответ/matched_wiki_entity_name | Текст | нить | ||
ответ/normalized_aliases | Последовательность (текст) | (Никто,) | нить | |
ответ/normalized_matched_wiki_entity_name | Текст | нить | ||
ответ/нормализованное_значение | Текст | нить | ||
ответ/тип | Текст | нить | ||
ответ/значение | Текст | нить | ||
entity_pages | Последовательность | |||
entity_pages/doc_source | Текст | нить | ||
entity_pages/имя файла | Текст | нить | ||
entity_pages/название | Текст | нить | ||
entity_pages/wiki_context | Текст | нить | ||
вопрос | Текст | нить | ||
id_вопроса | Текст | нить | ||
вопрос_источник | Текст | нить | ||
результаты поиска | Последовательность | |||
search_results/описание | Текст | нить | ||
search_results/имя файла | Текст | нить | ||
search_results/ранг | Тензор | int32 | ||
search_results/search_context | Текст | нить | ||
search_results/название | Текст | нить | ||
search_results/url | Текст | нить |
Ключи под наблюдением (см. документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (конфигурация по умолчанию)
Описание конфигурации : пары «вопрос-ответ», где все документы для заданного вопроса содержат строку (строки) ответа. Включает контекст из Википедии и результатов поиска.
Размер загрузки :
2.48 GiB
Размер набора данных :
14.99 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 17 210 |
'train' | 138 384 |
'validation' | 18 669 |
- Примеры ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Описание конфигурации : пары «вопрос-ответ», где все документы для заданного вопроса содержат строку (строки) ответа.
Размер загрузки :
2.48 GiB
Размер набора данных :
196.84 MiB
Автоматическое кэширование ( документация ): да (тест, проверка), только если
shuffle_files=False
(поезд)Сплиты :
Расколоть | Примеры |
---|---|
'test' | 17 210 |
'train' | 138 384 |
'validation' | 18 669 |
- Примеры ( tfds.as_dataframe ):
trivia_qa/нефильтрованное
Описание конфигурации : 110 000 пар вопросов и ответов для проверки качества открытого домена, где не все документы по заданному вопросу содержат строку (строки) ответа. Это делает нефильтрованный набор данных более подходящим для обеспечения качества в стиле IR. Включает контекст из Википедии и результатов поиска.
Размер загрузки :
3.07 GiB
Размер набора данных :
27.27 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 10 832 |
'train' | 87 622 |
'validation' | 11 313 |
- Примеры ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Описание конфигурации : 110 000 пар вопросов и ответов для проверки качества открытого домена, где не все документы по заданному вопросу содержат строку (строки) ответа. Это делает нефильтрованный набор данных более подходящим для обеспечения качества в стиле IR.
Размер загрузки :
603.25 MiB
Размер набора данных :
119.78 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 10 832 |
'train' | 87 622 |
'validation' | 11 313 |
- Примеры ( tfds.as_dataframe ):