articulos cientificos

  • Descripción :

Los conjuntos de datos de artículos científicos contienen dos conjuntos de documentos extensos y estructurados. Los conjuntos de datos se obtienen de los repositorios ArXiv y PubMed OpenAccess.

Tanto "arxiv" como "pubmed" tienen dos funciones:

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
resumen Texto cadena
artículo Texto cadena
nombres_de_la_sección Texto cadena
@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers/arxiv (configuración predeterminada)

  • Descripción de la configuración : Documentos del repositorio de ArXiv.

  • Tamaño del conjunto de datos : 7.07 GiB

  • Divisiones :

Separar Ejemplos
'test' 6,440
'train' 203,037
'validation' 6,436

artículos_científicos/publicados

  • Descripción de la configuración : documentos del repositorio de PubMed.

  • Tamaño del conjunto de datos : 2.34 GiB

  • Divisiones :

Separar Ejemplos
'test' 6,658
'train' 119,924
'validation' 6,633