- Descripción :
DART (generación de registro de datos a texto) contiene una relación de entidad RDF anotada con descripciones de oraciones que cubren todos los hechos en el conjunto triple. DART se construyó utilizando conjuntos de datos existentes como: WikiTableQuestions, WikiSQL, WebNLG y Cleaned E2E. Las tablas de WikiTableQuestions y WikiSQL se transformaron en triples sujeto-predicado-objeto, y sus anotaciones de texto se recopilaron principalmente de MTurk. Las representaciones significativas en E2E también se transformaron en triples y se usaron sus descripciones, algunas que no se pudieron transformar se eliminaron.
Se mantienen las divisiones de conjuntos de datos de E2E y WebNLG, y para WikiTableQuestions y WikiSQL se utiliza la similitud de Jaccard para mantener tablas similares en el mismo conjunto (entrenamiento/desarrollo/tes).
Este conjunto de datos se construye siguiendo un formato de tabla estandarizado.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/Yale-LILY/dart
Código fuente :
tfds.structured.dart.Dart
Versiones :
-
0.1.0
(predeterminado): Sin notas de la versión.
-
Tamaño de la descarga :
249.71 MiB
Tamaño del conjunto de datos :
38.83 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 12,552 |
'train' | 62,659 |
'validation' | 6,980 |
- Estructura de características :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
texto de entrada | CaracterísticasDict | |||
entrada_texto/tabla | Secuencia | |||
texto_de_entrada/tabla/encabezado_de_columna | Tensor | cuerda | ||
entrada_texto/tabla/contenido | Tensor | cuerda | ||
texto_de_entrada/tabla/número_de_fila | Tensor | int16 | ||
texto_objetivo | Tensor | cuerda |
Teclas supervisadas (Ver
as_supervised
doc ):('input_text', 'target_text')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}