- Descrizione :
DART (DAta Record to Text generation) contiene relazioni di entità RDF annotate con descrizioni di frasi che coprono tutti i fatti nel triplo set. DART è stato creato utilizzando set di dati esistenti come: WikiTableQuestions, WikiSQL, WebNLG e Cleaned E2E. Le tabelle di WikiTableQuestions e WikiSQL sono state trasformate in triple soggetto-predicato-oggetto e le sue annotazioni di testo sono state raccolte principalmente da MTurk. Anche le rappresentazioni significative in E2E sono state trasformate in triple e sono state utilizzate le sue descrizioni, alcune che non potevano essere trasformate sono state eliminate.
Le divisioni del set di dati di E2E e WebNLG vengono mantenute e per WikiTableQuestions e WikiSQL viene utilizzata la somiglianza di Jaccard per mantenere tabelle simili nello stesso set (train/dev/tes).
Questo set di dati è costruito seguendo un formato di tabella standardizzato.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/Yale-LILY/dart
Codice sorgente :
tfds.structured.dart.Dart
Versioni :
-
0.1.0
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensione del download :
249.71 MiB
Dimensione del set di dati:
38.83 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 12.552 |
'train' | 62.659 |
'validation' | 6.980 |
- Struttura delle caratteristiche :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
testo di input | CaratteristicheDict | |||
testo_input/tabella | Sequenza | |||
input_text/table/column_header | Tensore | corda | ||
testo_input/tabella/contenuto | Tensore | corda | ||
testo_input/tabella/numero_riga | Tensore | int16 | ||
testo_destinazione | Tensore | corda |
Chiavi supervisionate (vedi
as_supervised
doc ):('input_text', 'target_text')
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}