samsum

  • الوصف :

تحتوي مجموعة SAMSum Corpus على أكثر من 16 ألف حوارات دردشة مع ملخصات مشروحة يدويًا.

هناك نوعان من الميزات:

  • الحوار: نص الحوار.
  • الملخص: الملخص البشري المكتوب للحوار.
  • معرف: معرف مثال.

  • وثائق إضافية : استكشف في الأوراق باستخدام الرمز

  • الصفحة الرئيسية : https://arxiv.org/src/1911.12237v2/anc

  • كود المصدر : tfds.datasets.samsum.Builder

  • إصدارات :

    • 1.0.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم التنزيل : Unknown size

  • حجم مجموعة البيانات : 10.71 MiB

  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    قم بتنزيل https://arxiv.org/src/1911.12237v2/anc/corpus.7z ، وقم بفك الضغط ووضع train.json و val.json و test.json في دليل فولدر.

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 819
'train' 14،732
'validation' 818
  • هيكل الميزة :
FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
حوار نص سلسلة
هوية شخصية نص سلسلة
ملخص نص سلسلة
  • الاقتباس :
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}