أوراق علمية

الوصف :

تحتوي مجموعات بيانات الأوراق العلمية على مجموعتين من المستندات الطويلة والمنظمة. يتم الحصول على مجموعات البيانات من مستودعات ArXiv و PubMed OpenAccess.

كل من "arxiv" و "pubmed" لهما ميزتان:

مقالة: نص المستند ، والرسومات المفصولة بعلامة "/ n".
الملخص: ملخص المستند مفصولة بعلامة "/ n".
section_names: عناوين الأقسام مفصولة بعلامة "/ n".
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/armancohan/long-summarization
كود المصدر : tfds.datasets.scientific_papers.Builder
إصدارات :
- 1.1.0 : لا توجد ملاحظات إصدار.
- 1.1.1 (افتراضي): لا توجد ملاحظات حول الإصدار.
حجم التحميل : 4.20 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
هيكل الميزة :

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})

وثائق الميزة :

ميزة	فصل	نوع
	الميزات
نبذة مختصرة	نص	سلسلة
مقالة - سلعة	نص	سلسلة
section_names	نص	سلسلة

المفاتيح الخاضعة للإشراف (انظر as_supervised doc ): ('article', 'abstract')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers / arxiv (التكوين الافتراضي)

وصف التكوين : وثائق من مستودع ArXiv.
حجم مجموعة البيانات : 7.07 GiB
الانقسامات :

انشق، مزق	أمثلة
`'test'`	6440
`'train'`	203،037
`'validation'`	6436

أمثلة ( tfds.as_dataframe ):

Scientific_papers / منشورات

وصف التكوين : وثائق من مستودع PubMed.
حجم مجموعة البيانات : 2.34 GiB
الانقسامات :

انشق، مزق	أمثلة
`'test'`	6،658
`'train'`	11924
`'validation'`	6633

أمثلة ( tfds.as_dataframe ):

أوراق علمية تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

Scientific_papers / arxiv (التكوين الافتراضي)

Scientific_papers / منشورات

أوراق علمية