- Descriptif :
DART (Data Record to Text generation) contient une relation d'entité RDF annotée avec des descriptions de phrases qui couvrent tous les faits du triple ensemble. DART a été construit à l'aide d'ensembles de données existants tels que : WikiTableQuestions, WikiSQL, WebNLG et Cleaned E2E. Les tables de WikiTableQuestions et WikiSQL ont été transformées en triplets sujet-prédicat-objet, et ses annotations de texte ont été principalement collectées à partir de MTurk. Les représentations significatives dans E2E ont également été transformées en triplets et ses descriptions ont été utilisées, certaines qui ne pouvaient pas être transformées ont été supprimées.
Les divisions de l'ensemble de données d'E2E et de WebNLG sont conservées, et pour les WikiTableQuestions et WikiSQL, la similarité Jaccard est utilisée pour conserver des tables similaires dans le même ensemble (train/dev/tes).
Cet ensemble de données est construit selon un format de tableau standardisé.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/Yale-LILY/dart
Code source :
tfds.structured.dart.Dart
Versions :
-
0.1.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
249.71 MiB
Taille du jeu de données :
38.83 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 12 552 |
'train' | 62 659 |
'validation' | 6 980 |
- Structure des fonctionnalités :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
Texte de saisie | FonctionnalitésDict | |||
input_text/table | Séquence | |||
input_text/table/column_header | Tenseur | chaîne de caractères | ||
input_text/table/contenu | Tenseur | chaîne de caractères | ||
input_text/table/row_number | Tenseur | int16 | ||
texte_cible | Tenseur | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('input_text', 'target_text')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}