дротик

  • Описание :

DART (генерация записи данных в текст) содержит отношения объектов RDF, аннотированные описаниями предложений, которые охватывают все факты в тройном наборе. DART был создан с использованием существующих наборов данных, таких как: WikiTableQuestions, WikiSQL, WebNLG и Cleaned E2E. Таблицы из WikiTableQuestions и WikiSQL были преобразованы в тройки субъект-предикат-объект, а их текстовые аннотации в основном были взяты из MTurk. Осмысленные представления в E2E также были преобразованы в тройки и использованы их описания, некоторые из них, которые не могли быть преобразованы, были отброшены.

Разделения наборов данных E2E и WebNLG сохраняются, а для WikiTableQuestions и WikiSQL используется подобие Jaccard, чтобы сохранить похожие таблицы в одном наборе (train/dev/tes).

Этот набор данных построен в соответствии со стандартизированным форматом таблицы.

Расколоть Примеры
'test' 12 552
'train' 62 659
'validation' 6980
  • Структура функции :
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
input_text ОсобенностиDict
input_text/таблица Последовательность
input_text/таблица/column_header Тензор нить
input_text/таблица/содержание Тензор нить
input_text/таблица/номер_строки Тензор int16
целевой_текст Тензор нить
  • Цитата :
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}