- الوصف :
تحتوي مجموعات بيانات الأوراق العلمية على مجموعتين من المستندات الطويلة والمنظمة. يتم الحصول على مجموعات البيانات من مستودعات ArXiv و PubMed OpenAccess.
كل من "arxiv" و "pubmed" لهما ميزتان:
- مقالة: نص المستند ، والرسومات المفصولة بعلامة "/ n".
- الملخص: ملخص المستند مفصولة بعلامة "/ n".
section_names: عناوين الأقسام مفصولة بعلامة "/ n".
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/armancohan/long-summarization
كود المصدر :
tfds.datasets.scientific_papers.Builder
إصدارات :
-
1.1.0
: لا توجد ملاحظات إصدار. -
1.1.1
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التحميل :
4.20 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
هيكل الميزة :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
نبذة مختصرة | نص | سلسلة | ||
مقالة - سلعة | نص | سلسلة | ||
section_names | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('article', 'abstract')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
Scientific_papers / arxiv (التكوين الافتراضي)
وصف التكوين : وثائق من مستودع ArXiv.
حجم مجموعة البيانات :
7.07 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 6440 |
'train' | 203،037 |
'validation' | 6436 |
- أمثلة ( tfds.as_dataframe ):
Scientific_papers / منشورات
وصف التكوين : وثائق من مستودع PubMed.
حجم مجموعة البيانات :
2.34 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 6،658 |
'train' | 11924 |
'validation' | 6633 |
- أمثلة ( tfds.as_dataframe ):