الكتب

  • الوصف :

BookSum: مجموعة من مجموعات البيانات للتلخيص السردي الطويل

يدعم هذا التطبيق حاليًا ملخصات الكتب والفصول فقط.

جيثب: https://github.com/salesforce/booksum

يجب أن يحتوي المجلد اليدوي على الدلائل التالية:

- `booksum/`
- `all_chapterized_books/`
  • التخزين المؤقت التلقائي ( التوثيق ): نعم (اختبار ، التحقق من الصحة) ، فقط عندما يكون shuffle_files=False (قطار)

  • هيكل الميزة :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
وثيقة نص سلسلة
ملخص نص سلسلة
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

مجموعة الكتب / الكتاب (التكوين الافتراضي)

  • وصف التكوين : تلخيص على مستوى الكتاب

  • حجم مجموعة البيانات : 208.81 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 46
'train' 312
'validation' 45

الكتب / الفصل

  • وصف التكوين : تلخيص على مستوى الفصل

  • حجم مجموعة البيانات : 216.71 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،083
'train' 6524
'validation' 891