- الوصف :
مجموعة بيانات Reddit ، حيث تشير TIFU إلى اسم subbreddit / r / tifu. كما هو محدد في المنشور ، يستخدم النمط "قصير" العنوان كموجز ويستخدم "طويل" tldr كملخص.
تشمل الميزات:
- المستند: نص آخر بدون tldr.
- tldr: خط tldr.
- العنوان: قص العنوان بدون tldr.
- يو بي إس: التصويتات المؤيدة.
- النتيجة: النتيجة.
- num_comments: عدد التعليقات.
upvote_ratio: نسبة التصويت الإيجابي.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/ctr4si/MMN
كود المصدر :
tfds.datasets.reddit_tifu.Builder
إصدارات :
-
1.1.0
: إزالة المستند الفارغ وسلاسل الملخص. -
1.1.1
: أضف تقسيمات train و dev و test (80/10/10) التي تُستخدم في PEGASUS ( https://arxiv.org/abs/1912.08777 ) في تكوين منفصل. تم إنشاء هذه بشكل عشوائي باستخدام وظيفة تقسيم tfds ويتم إصدارها للتأكد من أن النتائج على Redditid
Long قابلة للتكرار وقابلة للمقارنة. أضف أيضًا معرفًا إلى نقاط البيانات. -
1.1.2
(افتراضي): تحميل الانقسامات المصححة.
-
هيكل الميزة :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
مستندات | نص | سلسلة | ||
هوية شخصية | نص | سلسلة | ||
عدد_التعليقات | موتر | تعويم 32 | ||
نتيجة | موتر | تعويم 32 | ||
لقب | نص | سلسلة | ||
tldr | نص | سلسلة | ||
يو بي إس | موتر | تعويم 32 | ||
upvote_ratio | موتر | تعويم 32 |
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu / short (التكوين الافتراضي)
وصف التكوين : استخدام العنوان كموجز.
حجم التحميل :
639.54 MiB
حجم مجموعة البيانات :
141.46 MiB
التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون
shuffle_files=False
(قطار)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 79.740 |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('documents', 'title')
أمثلة ( tfds.as_dataframe ):
reddit_tifu / طويل
وصف التكوين : استخدام TLDR كملخص.
حجم التحميل :
639.54 MiB
حجم مجموعة البيانات :
93.10 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 42139 |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('documents', 'tldr')
أمثلة ( tfds.as_dataframe ):
reddit_tifu / long_split
وصف التكوين : استخدام TLDR كملخص وتقسيم تدريب العودة / اختبار / مطور.
حجم التحميل :
639.94 MiB
حجم مجموعة البيانات :
93.10 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 4214 |
'train' | 33711 |
'validation' | 4214 |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('documents', 'tldr')
أمثلة ( tfds.as_dataframe ):