- Описание :
DART (генерация записи данных в текст) содержит отношения объектов RDF, аннотированные описаниями предложений, которые охватывают все факты в тройном наборе. DART был создан с использованием существующих наборов данных, таких как: WikiTableQuestions, WikiSQL, WebNLG и Cleaned E2E. Таблицы из WikiTableQuestions и WikiSQL были преобразованы в тройки субъект-предикат-объект, а их текстовые аннотации в основном были взяты из MTurk. Осмысленные представления в E2E также были преобразованы в тройки и использованы их описания, некоторые из них, которые не могли быть преобразованы, были отброшены.
Разделения наборов данных E2E и WebNLG сохраняются, а для WikiTableQuestions и WikiSQL используется подобие Jaccard, чтобы сохранить похожие таблицы в одном наборе (train/dev/tes).
Этот набор данных построен в соответствии со стандартизированным форматом таблицы.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/Yale-LILY/dart
Исходный код :
tfds.structured.dart.Dart
Версии :
-
0.1.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
249.71 MiB
Размер набора данных :
38.83 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 12 552 |
'train' | 62 659 |
'validation' | 6980 |
- Структура функции :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
input_text | ОсобенностиDict | |||
input_text/таблица | Последовательность | |||
input_text/таблица/column_header | Тензор | нить | ||
input_text/таблица/содержание | Тензор | нить | ||
input_text/таблица/номер_строки | Тензор | int16 | ||
целевой_текст | Тензор | нить |
Контролируемые ключи (см . документ
as_supervised
):('input_text', 'target_text')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}