научные_бумаги

  • Описание :

Наборы данных научных статей содержат два набора длинных и структурированных документов. Наборы данных получены из репозиториев ArXiv и PubMed OpenAccess.

И «arxiv», и «pubmed» имеют две особенности:

  • статья: основная часть документа, абзацы разделены "/n".
  • аннотация: аннотация документа, страницы, разделенные "/n".
  • section_names: названия разделов, разделенные "/n".

  • Дополнительная документация : изучить документы с кодом

  • Домашняя страница : https://github.com/armancohan/long-summarization

  • Исходный код : tfds.datasets.scientific_papers.Builder

  • Версии :

    • 1.1.0 : Нет примечаний к выпуску.
    • 1.1.1 (по умолчанию): нет примечаний к выпуску.
  • Размер загрузки : 4.20 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Структура функции :

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
Абстрактные Текст нить
статья Текст нить
section_names Текст нить
  • Контролируемые ключи (см. as_supervised doc ): ('article', 'abstract')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Цитата :

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers/arxiv (конфигурация по умолчанию)

  • Описание конфига : Документы из репозитория ArXiv.

  • Размер набора данных : 7.07 GiB

  • Сплиты :

Расколоть Примеры
'test' 6440
'train' 203 037
'validation' 6436

научные_бумаги/опубликованные

  • Описание конфига : Документы из репозитория PubMed.

  • Размер набора данных : 2.34 GiB

  • Сплиты :

Расколоть Примеры
'test' 6658
'train' 119 924
'validation' 6633