- الوصف :
BookSum: مجموعة من مجموعات البيانات للتلخيص السردي الطويل
يدعم هذا التطبيق حاليًا ملخصات الكتب والفصول فقط.
جيثب: https://github.com/salesforce/booksum
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/salesforce/booksum
كود المصدر :
tfds.datasets.booksum.Builder
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التنزيل :
Unknown size
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعدادات الافتراضية على~/tensorflow_datasets/downloads/manual/
):1) انتقل إلى https://github.com/salesforce/booksum ، وقم بتشغيل الخطوات من 1 إلى 3. ضع مشروع
booksum
git بأكمله في المجلد اليدوي. 2) قم بتنزيل الكتب ذات الفصول من https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip وفك الضغط إلى مجلد الدليل.
يجب أن يحتوي المجلد اليدوي على الدلائل التالية:
- `booksum/`
- `all_chapterized_books/`
التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون
shuffle_files=False
(قطار)هيكل الميزة :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
وثيقة | نص | سلسلة | ||
ملخص | نص | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('document', 'summary')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
مجموعة الكتب / الكتاب (التكوين الافتراضي)
وصف التكوين : تلخيص على مستوى الكتاب
حجم مجموعة البيانات :
208.81 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- أمثلة ( tfds.as_dataframe ):
الكتب / الفصل
وصف التكوين : تلخيص على مستوى الفصل
حجم مجموعة البيانات :
216.71 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،083 |
'train' | 6524 |
'validation' | 891 |
- أمثلة ( tfds.as_dataframe ):