غرفة الأخبار

  • الوصف :

NEWSROOM هي مجموعة بيانات كبيرة للتدريب وتقييم أنظمة التلخيص. يحتوي على 1.3 مليون مقال وملخص كتبها مؤلفون ومحرّرون في غرف أخبار 38 مطبوعة رئيسية.

تتضمن ميزات مجموعة البيانات ما يلي:

  • النص: إدخال نص الأخبار.
  • الملخص: ملخص الخبر.

ومميزات إضافية:

  • العنوان: عنوان الخبر.
  • url: url الخاص بالأخبار.
  • التاريخ: تاريخ المقال.
  • الكثافة: الكثافة الاستخراجية.
  • التغطية: تغطية استخلاصية.
  • الضغط: نسبة الضغط.
  • كثافة_بين: منخفض ، متوسط ​​، مرتفع.
  • cover_bin: استخلاصي ، تجريدي.
  • compression_bin: منخفض ، متوسط ​​، مرتفع.

يمكن تنزيل مجموعة البيانات هذه عند الطلب. قم بفك ضغط كافة المحتويات "train.jsonl ، dev.jsonl ، test.jsonl" إلى مجلد tfds.

  • وثائق إضافية : استكشف في الأوراق باستخدام الرمز

  • الصفحة الرئيسية https://summari.es

  • كود المصدر : tfds.datasets.newsroom.Builder

  • إصدارات :

    • 1.0.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم التنزيل : Unknown size

  • حجم مجموعة البيانات : 5.13 GiB

  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    يجب عليك تنزيل مجموعة البيانات من https://summari.es/download/ تتطلب صفحة الويب التسجيل. بعد التنزيل ، يرجى وضع ملفات dev.jsonl و test.jsonl و train.jsonl في manual_dir.

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

ينقسم أمثلة
'test' 108862
'train' 995،041
'validation' 108837
  • هيكل الميزة :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
ضغط موتر تعويم 32
compression_bin نص خيط
تغطية موتر تعويم 32
cover_bin نص خيط
تاريخ نص خيط
كثافة موتر تعويم 32
كثافة_بين نص خيط
ملخص نص خيط
نص نص خيط
عنوان نص خيط
عنوان url نص خيط
  • الاقتباس :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}