- Descriptif :
Les ensembles de données des articles scientifiques contiennent deux ensembles de documents longs et structurés. Les ensembles de données sont obtenus à partir des référentiels ArXiv et PubMed OpenAccess.
"arxiv" et "pubmed" ont deux fonctionnalités :
- article : le corps du document, pagragraphes séparés par "/n".
- résumé : le résumé du document, pagragraphes séparés par "/n".
section_names : titres des sections, séparés par "/n".
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/armancohan/long-summarization
Code source :
tfds.datasets.scientific_papers.Builder
Versions :
-
1.1.0
: Aucune note de version. -
1.1.1
(par défaut) : aucune note de version.
-
Taille du téléchargement :
4.20 GiB
Mise en cache automatique ( documentation ): Non
Structure des fonctionnalités :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
abstrait | Texte | chaîne de caractères | ||
article | Texte | chaîne de caractères | ||
noms_section | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):('article', 'abstract')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
articles_scientifiques/arxiv (configuration par défaut)
Description de la configuration : Documents du référentiel ArXiv.
Taille du jeu de données :
7.07 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 440 |
'train' | 203 037 |
'validation' | 6 436 |
- Exemples ( tfds.as_dataframe ):
articles_scientifiques/publication
Description de la configuration : Documents du référentiel PubMed.
Taille du jeu de données :
2.34 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 6 658 |
'train' | 119 924 |
'validation' | 6 633 |
- Exemples ( tfds.as_dataframe ):