- Descripción :
Los conjuntos de datos de artículos científicos contienen dos conjuntos de documentos extensos y estructurados. Los conjuntos de datos se obtienen de los repositorios ArXiv y PubMed OpenAccess.
Tanto "arxiv" como "pubmed" tienen dos funciones:
- artículo: el cuerpo del documento, párrafos separados por "/n".
- resumen: el resumen del documento, párrafos separados por "/n".
section_names: títulos de las secciones, separados por "/n".
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/armancohan/long-summarization
Código fuente :
tfds.datasets.scientific_papers.Builder
Versiones :
-
1.1.0
: Sin notas de la versión. -
1.1.1
(predeterminado): Sin notas de la versión.
-
Tamaño de descarga :
4.20 GiB
Almacenamiento automático en caché ( documentación ): No
Estructura de características :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
resumen | Texto | cadena | ||
artículo | Texto | cadena | ||
nombres_de_la_sección | Texto | cadena |
Claves supervisadas (Ver
as_supervised
):('article', 'abstract')
Figura ( tfds.show_examples ): no compatible.
Cita :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
Scientific_papers/arxiv (configuración predeterminada)
Descripción de la configuración : Documentos del repositorio de ArXiv.
Tamaño del conjunto de datos :
7.07 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 6,440 |
'train' | 203,037 |
'validation' | 6,436 |
- Ejemplos ( tfds.as_dataframe ):
artículos_científicos/publicados
Descripción de la configuración : documentos del repositorio de PubMed.
Tamaño del conjunto de datos :
2.34 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 6,658 |
'train' | 119,924 |
'validation' | 6,633 |
- Ejemplos ( tfds.as_dataframe ):