- توضیحات :
مجموعه داده های مقالات علمی شامل دو مجموعه از اسناد بلند و ساختار یافته است. مجموعه داده ها از مخازن ArXiv و PubMed OpenAccess به دست آمده اند.
"arxiv" و "pubmed" هر دو دارای دو ویژگی هستند:
- مقاله: بدنه سند، صفحاتی که با "/n" از هم جدا شده اند.
- چکیده: چکیده سند، صفحاتی که با "/n" از هم جدا شده اند.
section_names: عناوین بخشهایی که با "/n" از هم جدا شدهاند.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/armancohan/long-summarization
کد منبع :
tfds.datasets.scientific_papers.Builder
نسخه ها :
-
1.1.0
: بدون یادداشت انتشار. -
1.1.1
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
4.20 GiB
ذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
چکیده | متن | رشته | ||
مقاله | متن | رشته | ||
بخش_نام ها | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('article', 'abstract')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
Scientific_papers/arxiv (پیکربندی پیشفرض)
توضیحات پیکربندی : اسناد از مخزن ArXiv.
حجم مجموعه داده :
7.07 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 6,440 |
'train' | 203,037 |
'validation' | 6,436 |
- مثالها ( tfds.as_dataframe ):
مقالات علمی/pubmed
توضیحات پیکربندی : اسناد از مخزن PubMed.
حجم مجموعه داده :
2.34 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 6658 |
'train' | 119924 |
'validation' | 6633 |
- مثالها ( tfds.as_dataframe ):