- Описание :
Наборы данных научных статей содержат два набора длинных и структурированных документов. Наборы данных получены из репозиториев ArXiv и PubMed OpenAccess.
И «arxiv», и «pubmed» имеют две особенности:
- статья: основная часть документа, абзацы разделены "/n".
- аннотация: аннотация документа, страницы, разделенные "/n".
section_names: названия разделов, разделенные "/n".
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/armancohan/long-summarization
Исходный код :
tfds.datasets.scientific_papers.Builder
Версии :
-
1.1.0
: Нет примечаний к выпуску. -
1.1.1
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
4.20 GiB
Автоматическое кэширование ( документация ): Нет
Структура функции :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
Абстрактные | Текст | нить | ||
статья | Текст | нить | ||
section_names | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('article', 'abstract')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
Scientific_papers/arxiv (конфигурация по умолчанию)
Описание конфига : Документы из репозитория ArXiv.
Размер набора данных :
7.07 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 6440 |
'train' | 203 037 |
'validation' | 6436 |
- Примеры ( tfds.as_dataframe ):
научные_бумаги/опубликованные
Описание конфига : Документы из репозитория PubMed.
Размер набора данных :
2.34 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 6658 |
'train' | 119 924 |
'validation' | 6633 |
- Примеры ( tfds.as_dataframe ):