dardo

  • Descrizione :

DART (DAta Record to Text generation) contiene relazioni di entità RDF annotate con descrizioni di frasi che coprono tutti i fatti nel triplo set. DART è stato creato utilizzando set di dati esistenti come: WikiTableQuestions, WikiSQL, WebNLG e Cleaned E2E. Le tabelle di WikiTableQuestions e WikiSQL sono state trasformate in triple soggetto-predicato-oggetto e le sue annotazioni di testo sono state raccolte principalmente da MTurk. Anche le rappresentazioni significative in E2E sono state trasformate in triple e sono state utilizzate le sue descrizioni, alcune che non potevano essere trasformate sono state eliminate.

Le divisioni del set di dati di E2E e WebNLG vengono mantenute e per WikiTableQuestions e WikiSQL viene utilizzata la somiglianza di Jaccard per mantenere tabelle simili nello stesso set (train/dev/tes).

Questo set di dati è costruito seguendo un formato di tabella standardizzato.

Diviso Esempi
'test' 12.552
'train' 62.659
'validation' 6.980
  • Struttura delle caratteristiche :
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
testo di input CaratteristicheDict
testo_input/tabella Sequenza
input_text/table/column_header Tensore corda
testo_input/tabella/contenuto Tensore corda
testo_input/tabella/numero_riga Tensore int16
testo_destinazione Tensore corda
  • Citazione :
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}