- توضیحات :
WikiHow یک مجموعه داده جدید در مقیاس بزرگ است که از پایگاه دانش آنلاین WikiHow ( http://www.wikihow.com/ ) استفاده می کند.
دو ویژگی وجود دارد: - متن: wikihow به متون پاسخ می دهد. - عنوان: خطوط پررنگ به عنوان خلاصه.
دو نسخه جداگانه وجود دارد: - همه: شامل الحاق همه پاراگراف ها به عنوان مقاله و خطوط پررنگ به عنوان خلاصه مرجع. - sep: مشتمل بر هر پاراگراف و خلاصه آن.
"wikihowAll.csv" و "wikihowSep.csv" را از https://github.com/mahnazkoupaee/WikiHow-Dataset دانلود کنید و آنها را در پوشه دستی https://www.tensorflow.org/datasets/api_docs/python/tfds/ قرار دهید. دانلود/DownloadConfig Train/Validation/Test splits توسط نویسندگان ارائه شده است. پیش پردازش برای حذف مقالات کوتاه (طول چکیده < 0.75 طول مقاله) و پاک کردن کاماهای اضافی اعمال می شود.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/mahnazkoupaee/WikiHow-Dataset
کد منبع :
tfds.summarization.Wikihow
نسخه ها :
-
1.2.0
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
5.21 MiB
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض~/tensorflow_datasets/downloads/manual/
):
پیوندهای فایلها را میتوانید در https://github.com/mahnazkoupaee/WikiHow-Dataset پیدا کنید لطفاً wikihowAll.csv و wikihowSep.csv را دانلود کنید.ذخیره خودکار ( اسناد ): خیر
کلیدهای نظارت شده (مشاهده
as_supervised
doc ):('text', 'headline')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (پیکربندی پیشفرض)
توضیحات پیکربندی : از الحاق همه پاراگراف ها به عنوان مقاله و خطوط پررنگ به عنوان خلاصه مرجع استفاده کنید
حجم مجموعه داده :
531.56 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 5,577 |
'train' | 157,252 |
'validation' | 5,599 |
- ساختار ویژگی :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
عنوان | متن | رشته | ||
متن | متن | رشته | ||
عنوان | متن | رشته |
- مثالها ( tfds.as_dataframe ):
wikihow/sep
توضیحات پیکربندی : از هر پاراگراف و خلاصه آن استفاده کنید.
حجم مجموعه داده :
1.07 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 37800 |
'train' | 1,060,732 |
'validation' | 37932 |
- ساختار ویژگی :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
عنوان | متن | رشته | ||
بررسی اجمالی | متن | رشته | ||
بخش برچسب | متن | رشته | ||
متن | متن | رشته | ||
عنوان | متن | رشته |
- مثالها ( tfds.as_dataframe ):