- الوصف :
يحتوي DART (إنشاء DAta Record to Text) على علاقة كيان RDF مشروحة بأوصاف الجمل التي تغطي جميع الحقائق في المجموعة الثلاثية. تم إنشاء DART باستخدام مجموعات البيانات الموجودة مثل: WikiTableQuestions و WikiSQL و WebNLG و Cleaned E2E. تم تحويل الجداول من WikiTableQuestions و WikiSQL إلى ثلاثة أضعاف الموضوع - المسند - الكائن ، وتم جمع التعليقات التوضيحية النصية بشكل أساسي من MTurk. تم أيضًا تحويل التمثيلات ذات المعنى في E2E إلى ثلاثيات وتم استخدام أوصافها ، وتم إسقاط بعضها الذي لا يمكن تغييره.
يتم الاحتفاظ بتقسيمات مجموعة البيانات لـ E2E و WebNLG ، وبالنسبة إلى WikiTableQuestions و WikiSQL ، يتم استخدام تشابه Jaccard للاحتفاظ بجداول مماثلة في نفس المجموعة (train / dev / tes).
تم إنشاء مجموعة البيانات هذه باتباع تنسيق جدول قياسي.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/Yale-LILY/dart
كود المصدر :
tfds.structured.dart.Dart
إصدارات :
-
0.1.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التحميل :
249.71 MiB
حجم مجموعة البيانات :
38.83 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 12552 |
'train' | 62659 |
'validation' | 6980 |
- هيكل الميزة :
FeaturesDict({
'input_text': FeaturesDict({
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
أدخل نصآ | الميزات | |||
input_text / الجدول | تسلسل | |||
input_text / table / column_header. إدخال / نص / جدول / عمود | موتر | سلسلة | ||
input_text / جدول / محتوى | موتر | سلسلة | ||
input_text / table / row_number | موتر | int16 | ||
target_text | موتر | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('input_text', 'target_text')
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{radev2020dart,
title={DART: Open-Domain Structured Data Record to Text Generation},
author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
journal={arXiv preprint arXiv:2007.02871},
year={2020}