- الوصف :
WikiDialog عبارة عن مجموعة بيانات كبيرة من محادثات البحث عن المعلومات التي تم إنشاؤها صناعياً. تحتوي كل محادثة في مجموعة البيانات على متحدثين متأصلين في مقطع من ويكيبيديا الإنجليزية: تتكون أقوال أحد المتحدثين من جمل دقيقة من المقطع ؛ يتم إنشاء المتحدث الآخر بواسطة نموذج لغة كبير.
وصف التكوين : WikiDialog تم إنشاؤه من مربع الحوار في الرسام المحدد في OR-QuAC و QReCC.
OQ
تعني OR-QuAC و QReCC.الصفحة الرئيسية : https://github.com/google-research/dialog-inpainting#wikidialog-oq
كود المصدر :
tfds.text.wiki_dialog.WikiDialog
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التحميل :
7.04 GiB
حجم مجموعة البيانات :
36.58 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 11264129 |
'validation' | 113،822 |
- هيكل الميزة :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
author_num | تسلسل (موتر) | (لا أحد،) | int32 | |
الممر | نص | سلسلة | ||
pid | نص | سلسلة | ||
جمل | تسلسل (نص) | (لا أحد،) | سلسلة | |
لقب | نص | سلسلة | ||
الأقوال | تسلسل (نص) | (لا أحد،) | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}