Conozca lo último en aprendizaje automático, IA generativa y más en el Simposio WiML 2023.

Se usó la API de Cloud Translation para traducir esta página.

articulos cientificos

Descripción :

Los conjuntos de datos de artículos científicos contienen dos conjuntos de documentos extensos y estructurados. Los conjuntos de datos se obtienen de los repositorios ArXiv y PubMed OpenAccess.

Tanto "arxiv" como "pubmed" tienen dos funciones:

artículo: el cuerpo del documento, párrafos separados por "/n".
resumen: el resumen del documento, párrafos separados por "/n".
section_names: títulos de las secciones, separados por "/n".
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/armancohan/long-summarization
Código fuente : tfds.datasets.scientific_papers.Builder
Versiones :
- 1.1.0 : Sin notas de la versión.
- 1.1.1 (predeterminado): Sin notas de la versión.
Tamaño de descarga : 4.20 GiB
Almacenamiento automático en caché ( documentación ): No
Estructura de características :

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
resumen	Texto	cadena
artículo	Texto	cadena
nombres_de_la_sección	Texto	cadena

Claves supervisadas (Ver as_supervised ): ('article', 'abstract')
Figura ( tfds.show_examples ): no compatible.
Cita :

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers/arxiv (configuración predeterminada)

Descripción de la configuración : Documentos del repositorio de ArXiv.
Tamaño del conjunto de datos : 7.07 GiB
Divisiones :

Separar	Ejemplos
`'test'`	6,440
`'train'`	203,037
`'validation'`	6,436

Ejemplos ( tfds.as_dataframe ):

artículos_científicos/publicados

Descripción de la configuración : documentos del repositorio de PubMed.
Tamaño del conjunto de datos : 2.34 GiB
Divisiones :

Separar	Ejemplos
`'test'`	6,658
`'train'`	119,924
`'validation'`	6,633

Ejemplos ( tfds.as_dataframe ):

articulos cientificos Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Scientific_papers/arxiv (configuración predeterminada)

artículos_científicos/publicados

articulos cientificos