tydi_qa

  • Описание :

TyDi QA — это набор данных для ответов на вопросы, охватывающий 11 типологически разных языков и содержащий 204 000 пар вопросов и ответов. Языки TyDi QA разнообразны в отношении их типологии — набора лингвистических характеристик, которые выражает каждый язык, — так что мы ожидаем, что модели, хорошо работающие в этом наборе, будут обобщаться на большое количество языков в мире. Он содержит языковые явления, которых нет в корпусах только на английском языке. Чтобы обеспечить реалистичную задачу поиска информации и избежать эффектов прайминга, вопросы пишутся людьми, которые хотят знать ответ, но еще не знают ответа (в отличие от SQuAD и его потомков), а данные собираются непосредственно на каждом языке. без использования перевода (в отличие от MLQA и XQuAD).

Тренировочные сплиты:

'train': это задача GoldP из оригинальной статьи TyDi QA [ https://arxiv.org/abs/2003.05002 ], в которой есть данные обучения, помеченные на языке оригинала.

'translate-train-*': эти разбиения представляют собой автоматические переводы с английского на каждый целевой язык, используемый в базовых планах translate-train в документе XTREME [ https://arxiv.org/abs/2003.11080 ]. Это намеренно игнорирует обучающие данные TyDiQA-GoldP, отличные от английского, для моделирования сценария трансферного обучения, когда данные на исходном языке недоступны, и сборщики систем должны полагаться на помеченные данные на английском языке, а также на существующие системы машинного перевода.

Как правило, вы должны использовать ЛИБО разделение поезда или перевода поезда, но не оба.

Расколоть Примеры
'train' 49 881
'translate-train-ar' 3661
'translate-train-bn' 3585
'translate-train-fi' 3670
'translate-train-id' 3667
'translate-train-ko' 3607
'translate-train-ru' 3394
'translate-train-sw' 3622
'translate-train-te' 3658
'validation' 5077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Структура функции :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
ответы Последовательность
ответы/answer_start Тензор int32
ответы/текст Текст нить
контекст Текст нить
я бы Тензор нить
вопрос Текст нить
заглавие Текст нить
  • Цитата :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (конфигурация по умолчанию)