- توضیحات :
یک نسخه عظیم و پاک شده از مجموعه خزیدن وب Common Crawl.
بر اساس مجموعه داده Common Crawl: https://commoncrawl.org
برای تولید این مجموعه داده، لطفاً دستورالعمل های t5 را دنبال کنید.
با توجه به هزینه های اضافی برای تمیز کردن مجموعه داده، توصیه می شود آن را با یک سرویس توزیع شده مانند Cloud Dataflow آماده کنید. اطلاعات بیشتر در https://www.tensorflow.org/datasets/beam_datasets
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/google-research/text-to-text-transfer-transformer#datasets
کد منبع :
tfds.text.C4
نسخه ها :
-
2.2.0
: بدون یادداشت انتشار. -
2.2.1
: بدون یادداشت انتشار. -
2.3.0
: بدون یادداشت انتشار. -
2.3.1
: بدون یادداشت انتشار. -
3.1.0
(پیش فرض): بدون یادداشت انتشار.
-
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض~/tensorflow_datasets/downloads/manual/
):
شما از یک پیکربندی C4 استفاده می کنید که نیاز به دانلود دستی برخی از فایل ها دارد. برایc4/webtextlike
، OpenWebText.zip را از https://mega.nz/#F!EZZD0YwJ!9_PlEQzdMVLaNdKv_ICNVQ دانلود کنیدذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :
FeaturesDict({
'content-length': Text(shape=(), dtype=string),
'content-type': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
طول محتوا | متن | رشته | ||
نوع محتوا | متن | رشته | ||
متن | متن | رشته | ||
مهر زمانی | متن | رشته | ||
آدرس اینترنتی | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{2019t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {arXiv e-prints},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.10683},
}
c4/en (پیکربندی پیش فرض)
توضیحات پیکربندی : مجموعه داده انگلیسی C4.
حجم دانلود :
201.98 KiB
حجم مجموعه داده :
806.87 GiB
تقسیمات :
شکاف | مثال ها |
---|---|
'train' | 364,613,570 |
'validation' | 364724 |
- مثالها ( tfds.as_dataframe ):
c4/en.noclean
توضیحات پیکربندی : تمام پاکسازی ها را غیرفعال می کند (حذف تکراری، حذف بر اساس کلمات بد، و غیره)
حجم دانلود :
177.11 KiB
اندازه مجموعه داده :
6.21 TiB
تقسیمات :
شکاف | مثال ها |
---|---|
'train' | 1,063,805,169 |
'validation' | 1,065,028 |
- مثالها ( tfds.as_dataframe ):
c4/realnewslike
شرح پیکربندی : از پیکربندی پیشفرض فیلتر میشود تا فقط محتوای دامنههای مورد استفاده در مجموعه داده «RealNews» را شامل شود (Zellers و همکاران، 2019).
حجم دانلود :
340.29 KiB
حجم مجموعه داده :
36.91 GiB
تقسیمات :
شکاف | مثال ها |
---|---|
'train' | 13,804,817 |
'validation' | 13,855 |
- مثالها ( tfds.as_dataframe ):
c4/webtextlike
توضیحات پیکربندی : از پیکربندی پیشفرض فیلتر میشود تا فقط محتوای URLهای موجود در OpenWebText ( https://github.com/jcpeterson/openwebtext ) را شامل شود.
حجم دانلود :
2.04 MiB
حجم مجموعه داده :
17.93 GiB
تقسیمات :
شکاف | مثال ها |
---|---|
'train' | 4,488,694 |
'validation' | 4,486 |
- مثالها ( tfds.as_dataframe ):
c4/چند زبانه
توضیحات پیکربندی : C4 چند زبانه (mC4) دارای 101 زبان است و از 86 روگرفت Common Crawl ایجاد شده است.
حجم دانلود :
13.60 MiB
اندازه مجموعه داده :
38.49 TiB
تقسیمات :
شکاف | مثال ها |
---|---|
'af' | 1,770,414 |
'af-validation' | 1,757 |
'am' | 291,570 |
'am-validation' | 289 |
'ar' | 92,455,378 |
'ar-validation' | 92,374 |
'az' | 7,179,300 |
'az-validation' | 7206 |
'be' | 2,156,584 |
'be-validation' | 2,103 |
'bg' | 32,511,350 |
'bg-Latn' | 44,290 |
'bg-Latn-validation' | 41 |
'bg-validation' | 32690 |
'bn' | 15,183,514 |
'bn-validation' | 15130 |
'ca' | 19,438,615 |
'ca-validation' | 19,562 |
'ceb' | 415,208 |
'ceb-validation' | 430 |
'co' | 217,257 |
'co-validation' | 211 |
'cs' | 82,262,078 |
'cs-validation' | 82594 |
'cy' | 1,066,595 |
'cy-validation' | 1,016 |
'da' | 36,884,558 |
'da-validation' | 37,071 |
'de' | 545,956,997 |
'de-validation' | 547,566 |
'el' | 68,577,376 |
'el-Latn' | 162004 |
'el-Latn-validation' | 171 |
'el-validation' | 69,435 |
'en' | 3,928,733,379 |
'en-validation' | 3,933,379 |
'eo' | 560,151 |
'eo-validation' | 546 |
'es' | 591,272,119 |
'es-validation' | 592,258 |
'et' | 10,401,882 |
'et-validation' | 10276 |
'eu' | 2,077,113 |
'eu-validation' | 2077 |
'fa' | 81,252,911 |
'fa-validation' | 81,034 |
'fi' | 36,807,562 |
'fi-validation' | 36512 |
'fil' | 2,331,209 |
'fil-validation' | 2,381 |
'fr' | 454,229,019 |
'fr-validation' | 453,124 |
'fy' | 502,656 |
'fy-validation' | 478 |
'ga' | 611,457 |
'ga-validation' | 631 |
'gd' | 201,237 |
'gd-validation' | 196 |
'gl' | 3,762,255 |
'gl-validation' | 3,811 |
'gu' | 1,292,191 |
'gu-validation' | 1,323 |
'ha' | 363002 |
'ha-validation' | 368 |
'haw' | 103,043 |
'haw-validation' | 99 |
'hi' | 26,695,748 |
'hi-Latn' | 251,231 |
'hi-Latn-validation' | 261 |
'hi-validation' | 26721 |
'hmn' | 157,016 |
'hmn-validation' | 175 |
'ht' | 232,354 |
'ht-validation' | 246 |
'hu' | 56,645,732 |
'hu-validation' | 56905 |
'hy' | 3,873,029 |
'hy-validation' | 3,804 |
'id' | 19,423,746 |
'id-validation' | 19601 |
'ig' | 110,582 |
'ig-validation' | 103 |
'is' | 3,139,312 |
'is-validation' | 3,210 |
'it' | 267,686,115 |
'it-validation' | 267,322 |
'iw' | 17,607,812 |
'iw-validation' | 17570 |
'ja' | 85,226,039 |
'ja-Latn' | 235,885 |
'ja-Latn-validation' | 221 |
'ja-validation' | 85618 |
'jv' | 218,969 |
'jv-validation' | 253 |
'ka' | 3,726,808 |
'ka-validation' | 3752 |
'kk' | 3,421,165 |
'kk-validation' | 3,443 |
'km' | 1,384,128 |
'km-validation' | 1,359 |
'kn' | 1,916,445 |
'kn-validation' | 1,895 |
'ko' | 24,035,493 |
'ko-validation' | 24,240 |
'ku' | 399,027 |
'ku-validation' | 417 |
'ky' | 1,198,504 |
'ky-validation' | 1,188 |
'la' | 1,632,557 |
'la-validation' | 1,630 |
'lb' | 850,921 |
'lb-validation' | 856 |
'lo' | 302,612 |
'lo-validation' | 290 |
'lt' | 18,234,466 |
'lt-validation' | 18,428 |
'lv' | 9,882,376 |
'lv-validation' | 10,034 |
'mg' | 263,321 |
'mg-validation' | 254 |
'mi' | 148,146 |
'mi-validation' | 156 |
'mk' | 3,599,707 |
'mk-validation' | 3713 |
'ml' | 3,604,562 |
'ml-validation' | 3,514 |
'mn' | 2,947,312 |
'mn-validation' | 3,021 |
'mr' | 4,555,599 |
'mr-validation' | 4602 |
'ms' | 4,688,036 |
'ms-validation' | 4719 |
'mt' | 1,109,191 |
'mt-validation' | 1207 |
'my' | 1,248,242 |
'my-validation' | 1,314 |
'ne' | 4,679,412 |
'ne-validation' | 4738 |
'nl' | 136,379,427 |
'nl-validation' | 137,142 |
'no' | 30,644,684 |
'no-validation' | 31,134 |
'ny' | 114,952 |
'ny-validation' | 121 |
'pa' | 729,394 |
'pa-validation' | 719 |
'pl' | 178,690,573 |
'pl-validation' | 178,481 |
'ps' | 497,321 |
'ps-validation' | 468 |
'pt' | 246,401,954 |
'pt-validation' | 246120 |
'ro' | 66,499,899 |
'ro-validation' | 66,384 |
'ru' | 1,014,064,014 |
'ru-Latn' | 582,022 |
'ru-Latn-validation' | 616 |
'ru-validation' | 1,014,169 |
'sd' | 210,835 |
'sd-validation' | 206 |
'si' | 846125 |
'si-validation' | 846 |
'sk' | 26,721,250 |
'sk-validation' | 26,882 |
'sl' | 12,381,886 |
'sl-validation' | 12,381 |
'sm' | 102,125 |
'sm-validation' | 108 |
'sn' | 124,984 |
'sn-validation' | 116 |
'so' | 1,168,106 |
'so-validation' | 1212 |
'sq' | 7,023,573 |
'sq-validation' | 7,057 |
'sr' | 4,775,217 |
'sr-validation' | 4804 |
'st' | 99970 |
'st-validation' | 103 |
'su' | 153,302 |
'su-validation' | 151 |
'sv' | 63,308,307 |
'sv-validation' | 63,488 |
'sw' | 1,279,408 |
'sw-validation' | 1296 |
'ta' | 5,769,533 |
'ta-validation' | 5770 |
'te' | 2,034,828 |
'te-validation' | 2010 |
'tg' | 1,563,304 |
'tg-validation' | 1,526 |
'th' | 28,021,205 |
'th-validation' | 28062 |
'tr' | 132,662,955 |
'tr-validation' | 133,062 |
'uk' | 56,159,593 |
'uk-validation' | 56,321 |
'und' | 3,650,492,732 |
'und-validation' | 3,656,588 |
'ur' | 3,432,478 |
'ur-validation' | 3,443 |
'uz' | 1,183,603 |
'uz-validation' | 1259 |
'vi' | 132,667,573 |
'vi-validation' | 132,915 |
'xh' | 122232 |
'xh-validation' | 117 |
'yi' | 173,510 |
'yi-validation' | 166 |
'yo' | 86686 |
'yo-validation' | 82 |
'zh' | 214,856,503 |
'zh-Latn' | 471,314 |
'zh-Latn-validation' | 492 |
'zh-validation' | 214733 |
'zu' | 261239 |
'zu-validation' | 253 |
- مثالها ( tfds.as_dataframe ):