media_sum

  • الوصف :

تحتوي مجموعة بيانات المقابلات الإعلامية واسعة النطاق هذه على 463.6 ألف نص مع ملخصات تجريدية ، تم جمعها من نصوص المقابلات وأوصاف النظرة العامة / الموضوع من NPR و CNN.

يرجى تقييد استخدامك لمجموعة البيانات هذه لغرض البحث فقط.

ويرجى الاستشهاد بورقتنا: MediaSum: مجموعة بيانات مقابلة إعلامية واسعة النطاق لتلخيص الحوار

أخلاق مهنية

لقد استخدمنا فقط بيانات النصوص المتاحة للجمهور من مصادر وسائل الإعلام والالتزام بإرشاداتها لغرض البحث فقط.

نظرًا لأن وسائل الإعلام والضيوف قد يكون لديهم آراء متحيزة ، فمن المحتمل أن تحتوي النصوص والملخصات عليها. يعكس محتوى النصوص والملخصات فقط آراء وسائل الإعلام والضيوف ، ويجب أن يُنظر إليه بحذر.

  • الصفحة الرئيسية : https://github.com/zcgzcgzcg1/MediaSum

  • كود المصدر : tfds.datasets.media_sum.Builder

  • إصدارات :

    • 1.0.0 (افتراضي): الإصدار الأولي.
  • حجم التنزيل : Unknown size

  • حجم مجموعة البيانات : 4.11 GiB

  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    يجب أن يحتوي manual_dir على الملفات:

    • news_dialogue.json
    • train_val_test_split.json

يمكن تنزيل الملفات واستخراجها من صفحة GitHub لمجموعة البيانات: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

ينقسم أمثلة
'test' 10000
'train' 443.596
'val' 10000
  • هيكل الميزة :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
تاريخ نص خيط
بطاقة تعريف نص خيط
برنامج نص خيط
مكبر الصوت تسلسل (نص) (لا أحد،) خيط
ملخص نص خيط
عنوان url نص خيط
utt تسلسل (نص) (لا أحد،) خيط
  • الاقتباس :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}