- opis :
Zbiory danych artykułów naukowych zawierają dwa zestawy długich i ustrukturyzowanych dokumentów. Zbiory danych pochodzą z repozytoriów ArXiv i PubMed OpenAccess.
Zarówno „arxiv”, jak i „pubmed” mają dwie cechy:
- artykuł: treść dokumentu, strony oddzielone "/n".
- streszczenie: streszczenie dokumentu, strony oddzielone "/n".
nazwy_sekcji: tytuły sekcji oddzielone "/n".
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/armancohan/long-summarization
Kod źródłowy :
tfds.datasets.scientific_papers.Builder
Wersje :
-
1.1.0
: Brak informacji o wydaniu. -
1.1.1
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
4.20 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
abstrakcyjny | Tekst | strunowy | ||
artykuł | Tekst | strunowy | ||
nazwy_sekcji | Tekst | strunowy |
Klucze nadzorowane (Patrz dokument
as_supervised
):('article', 'abstract')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
science_papers/arxiv (domyślna konfiguracja)
Opis konfiguracji : Dokumenty z repozytorium ArXiv.
Rozmiar zestawu danych :
7.07 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 6440 |
'train' | 203037 |
'validation' | 6436 |
- Przykłady ( tfds.as_dataframe ):
artykuły_naukowe/publikowane
Opis konfiguracji : Dokumenty z repozytorium PubMed.
Rozmiar zestawu danych :
2.34 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 6658 |
'train' | 119 924 |
'validation' | 6633 |
- Przykłady ( tfds.as_dataframe ):