- Описание :
TyDi QA — это набор данных для ответов на вопросы, охватывающий 11 типологически разных языков и содержащий 204 000 пар вопросов и ответов. Языки TyDi QA разнообразны в отношении их типологии — набора лингвистических характеристик, которые выражает каждый язык, — так что мы ожидаем, что модели, хорошо работающие в этом наборе, будут обобщаться на большое количество языков в мире. Он содержит языковые явления, которых нет в корпусах только на английском языке. Чтобы обеспечить реалистичную задачу поиска информации и избежать эффектов прайминга, вопросы пишутся людьми, которые хотят знать ответ, но еще не знают ответа (в отличие от SQuAD и его потомков), а данные собираются непосредственно на каждом языке. без использования перевода (в отличие от MLQA и XQuAD).
Тренировочные сплиты:
'train': это задача GoldP из оригинальной статьи TyDi QA [ https://arxiv.org/abs/2003.05002 ], в которой есть данные обучения, помеченные на языке оригинала.
'translate-train-*': эти разбиения представляют собой автоматические переводы с английского на каждый целевой язык, используемый в базовых планах translate-train в документе XTREME [ https://arxiv.org/abs/2003.11080 ]. Это намеренно игнорирует обучающие данные TyDiQA-GoldP, отличные от английского, для моделирования сценария трансферного обучения, когда данные на исходном языке недоступны, и сборщики систем должны полагаться на помеченные данные на английском языке, а также на существующие системы машинного перевода.
Как правило, вы должны использовать ЛИБО разделение поезда или перевода поезда, но не оба.
Дополнительная документация : изучить документы с кодом
Описание конфига: Задача Золотого прохода (GoldP) ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
Домашняя страница : https://github.com/google-research-datasets/tydiqa
Исходный код :
tfds.question_answering.TydiQA
Версии :
-
3.0.0
(по умолчанию): исправлена проблема с рядом примеров, когда интервалы ответов смещены из-за удаления контекстного пробела. Это изменение затронет примерно 25% примеров обучения и разработки.
-
Размер загрузки :
121.30 MiB
Размер набора данных :
98.35 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 49 881 |
'translate-train-ar' | 3661 |
'translate-train-bn' | 3585 |
'translate-train-fi' | 3670 |
'translate-train-id' | 3667 |
'translate-train-ko' | 3607 |
'translate-train-ru' | 3394 |
'translate-train-sw' | 3622 |
'translate-train-te' | 3658 |
'validation' | 5077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- Структура функции :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
ответы | Последовательность | |||
ответы/answer_start | Тензор | int32 | ||
ответы/текст | Текст | нить | ||
контекст | Текст | нить | ||
я бы | Тензор | нить | ||
вопрос | Текст | нить | ||
заглавие | Текст | нить |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}