- Descrizione :
I set di dati di articoli scientifici contengono due serie di documenti lunghi e strutturati. I set di dati sono ottenuti dai repository ArXiv e PubMed OpenAccess.
Sia "arxiv" che "pubmed" hanno due caratteristiche:
- articolo: il corpo del documento, i paragrafi separati da "/n".
- abstract: l'abstract del documento, i paragrafi separati da "/n".
section_names: titoli delle sezioni, separati da "/n".
Documentazione aggiuntiva : Esplora documenti con codice
Codice sorgente :
tfds.datasets.scientific_papers.Builder
Versioni :
-
1.1.0
: Nessuna nota di rilascio. -
1.1.1
(impostazione predefinita): nessuna nota di rilascio.
-
Dimensione del download :
4.20 GiB
Cache automatica ( documentazione ): No
Struttura delle caratteristiche :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
astratto | Testo | corda | ||
articolo | Testo | corda | ||
section_names | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):('article', 'abstract')
Figura ( tfds.show_examples ): non supportato.
Citazione :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
scientific_papers/arxiv (configurazione predefinita)
Descrizione della configurazione : documenti dal repository ArXiv.
Dimensione del set di dati:
7.07 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 6.440 |
'train' | 203.037 |
'validation' | 6.436 |
- Esempi ( tfds.as_dataframe ):
articoli_scientifici/pubblicati
Descrizione della configurazione : documenti dal repository PubMed.
Dimensione del set di dati:
2.34 GiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 6.658 |
'train' | 119.924 |
'validation' | 6.633 |
- Esempi ( tfds.as_dataframe ):