reddit_disentanglement

  • الوصف :

تحتوي مجموعة البيانات هذه على حوالي 3 ملايين رسالة من reddit. يتم تصنيف كل رسالة ببيانات وصفية. وتتمثل المهمة في التنبؤ بمعرف الرسالة الأم في السلسلة المقابلة. يحتوي كل سجل على قائمة رسائل من موضوع واحد. تتم إزالة السجلات المكررة والمعطلة من مجموعة البيانات.

الميزات هي:

  • معرف - معرف الرسالة
  • نص - نص الرسالة
  • المؤلف - مؤلف الرسالة
  • created_utc - الطابع الزمني لرسالة UTC
  • link_id - معرف المنشور الذي يتعلق به التعليق

استهداف:

  • parent_id - معرف الرسالة الأصل في الموضوع الحالي

  • الصفحة الرئيسية : https://github.com/henghuiz/MaskedHierarchicalTransformer

  • كود المصدر : tfds.datasets.reddit_disentanglement.Builder

  • إصدارات :

    • 2.0.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم التنزيل : Unknown size

  • حجم مجموعة البيانات : Unknown size

  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    قم بتنزيل https://github.com/henghuiz/MaskedHierarchicalTransformer ، وفك ضغط raw_data.zip وقم بتشغيل create_dataset.py باستخدام بيانات اعتماد reddit api الخاصة بك. ثم ضع train.csv و val.csv و test.csv من دليل الإخراج في المجلد اليدوي.

  • التخزين المؤقت التلقائي ( الوثائق ): غير معروف

  • الانقسامات :

انشق، مزق أمثلة
  • هيكل الميزة :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
مسلك تسلسل
الموضوع / المؤلف نص سلسلة
موضوع / created_utc نص سلسلة
موضوع / معرف نص سلسلة
موضوع / link_id نص سلسلة
موضوع / معرف الوالدين نص سلسلة
موضوع / نص نص سلسلة
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}