web_nlg

  • Descripción :

Los datos contienen conjuntos de 1 a 7 triples de la forma sujeto-predicado-objeto extraídos de (DBpedia) [ https://wiki.dbpedia.org/ ] y texto en lenguaje natural que es una verbalización de estos triples. Los datos de prueba abarcan 15 dominios diferentes donde solo 10 aparecen en los datos de entrenamiento. El conjunto de datos sigue un formato de tabla estandarizado.

Separar Ejemplos
'test_all' 4,928
'test_unseen' 2,433
'train' 18,102
'validation' 2,268
  • Estructura de características :
FeaturesDict({
    'input_text': FeaturesDict({
        'context': string,
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
texto de entrada CaracterísticasDict
entrada_texto/contexto Tensor cuerda
entrada_texto/tabla Secuencia
texto_de_entrada/tabla/encabezado_de_columna Tensor cuerda
entrada_texto/tabla/contenido Tensor cuerda
texto_de_entrada/tabla/número_de_fila Tensor int16
texto_objetivo Tensor cuerda
  • Cita :
@inproceedings{gardent2017creating,
    title = ""Creating Training Corpora for {NLG} Micro-Planners"",
    author = ""Gardent, Claire  and
      Shimorina, Anastasia  and
      Narayan, Shashi  and
      Perez-Beltrachini, Laura"",
    booktitle = ""Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)"",
    month = jul,
    year = ""2017"",
    address = ""Vancouver, Canada"",
    publisher = ""Association for Computational Linguistics"",
    doi = ""10.18653/v1/P17-1017"",
    pages = ""179--188"",
    url = ""https://www.aclweb.org/anthology/P17-1017.pdf""
}