- বর্ণনা :
WikiDialog হল সিন্থেটিকভাবে তৈরি তথ্য-সন্ধানী কথোপকথনের একটি বড় ডেটাসেট। ডেটাসেটের প্রতিটি কথোপকথনে ইংরেজি উইকিপিডিয়ার একটি অনুচ্ছেদে ভিত্তি করে দুটি স্পিকার থাকে: একজন বক্তার উচ্চারণ প্যাসেজ থেকে সঠিক বাক্য নিয়ে গঠিত; অন্য স্পিকার একটি বড় ভাষা মডেল দ্বারা উত্পন্ন হয়.
কনফিগারেশনের বিবরণ : OR-QuAC এবং QReCC-তে সংলাপ ইনপেইন্টার থেকে WikiDialog তৈরি করা হয়েছে।
OQ
মানে OR-QuAC এবং QReCC।হোমপেজ : https://github.com/google-research/dialog-inpainting#wikidialog-oq
উত্স কোড :
tfds.text.wiki_dialog.WikiDialog
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড আকার :
7.04 GiB
ডেটাসেটের আকার :
36.58 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 11,264,129 |
'validation' | 113,822 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
লেখক_সংখ্যা | ক্রম (টেনসর) | (কোনটিই নয়,) | int32 | |
উত্তরণ | পাঠ্য | স্ট্রিং | ||
পিড | পাঠ্য | স্ট্রিং | ||
বাক্য | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং | |
শিরোনাম | পাঠ্য | স্ট্রিং | ||
উচ্চারণ | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}