ج4

  • توضیحات :

یک نسخه عظیم و پاک شده از مجموعه خزیدن وب Common Crawl.

بر اساس مجموعه داده Common Crawl: https://commoncrawl.org

برای تولید این مجموعه داده، لطفاً دستورالعمل های t5 را دنبال کنید.

با توجه به هزینه های اضافی برای تمیز کردن مجموعه داده، توصیه می شود آن را با یک سرویس توزیع شده مانند Cloud Dataflow آماده کنید. اطلاعات بیشتر در https://www.tensorflow.org/datasets/beam_datasets

  • اسناد اضافی : کاوش در کاغذها با کد

  • صفحه اصلی : https://github.com/google-research/text-to-text-transfer-transformer#datasets

  • کد منبع : tfds.text.C4

  • نسخه ها :

    • 2.2.0 : بدون یادداشت انتشار.
    • 2.2.1 : بدون یادداشت انتشار.
    • 2.3.0 : بدون یادداشت انتشار.
    • 2.3.1 : بدون یادداشت انتشار.
    • 3.1.0 (پیش فرض): بدون یادداشت انتشار.
  • دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):
    شما از یک پیکربندی C4 استفاده می کنید که نیاز به دانلود دستی برخی از فایل ها دارد. برای c4/webtextlike ، OpenWebText.zip را از https://mega.nz/#F!EZZD0YwJ!9_PlEQzdMVLaNdKv_ICNVQ دانلود کنید

  • ذخیره خودکار ( اسناد ): خیر

  • ساختار ویژگی :

FeaturesDict({
    'content-length': Text(shape=(), dtype=string),
    'content-type': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'timestamp': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
طول محتوا متن رشته
نوع محتوا متن رشته
متن متن رشته
مهر زمانی متن رشته
آدرس اینترنتی متن رشته
@article{2019t5,
  author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {arXiv e-prints},
  year = {2019},
  archivePrefix = {arXiv},
  eprint = {1910.10683},
}

c4/en (پیکربندی پیش فرض)

  • توضیحات پیکربندی : مجموعه داده انگلیسی C4.

  • حجم دانلود : 201.98 KiB

  • حجم مجموعه داده : 806.87 GiB

  • تقسیمات :

شکاف مثال ها
'train' 364,613,570
'validation' 364724

c4/en.noclean

  • توضیحات پیکربندی : تمام پاکسازی ها را غیرفعال می کند (حذف تکراری، حذف بر اساس کلمات بد، و غیره)

  • حجم دانلود : 177.11 KiB

  • اندازه مجموعه داده : 6.21 TiB

  • تقسیمات :

شکاف مثال ها
'train' 1,063,805,169
'validation' 1,065,028

c4/realnewslike

  • شرح پیکربندی : از پیکربندی پیش‌فرض فیلتر می‌شود تا فقط محتوای دامنه‌های مورد استفاده در مجموعه داده «RealNews» را شامل شود (Zellers و همکاران، 2019).

  • حجم دانلود : 340.29 KiB

  • حجم مجموعه داده : 36.91 GiB

  • تقسیمات :

شکاف مثال ها
'train' 13,804,817
'validation' 13,855

c4/webtextlike

  • توضیحات پیکربندی : از پیکربندی پیش‌فرض فیلتر می‌شود تا فقط محتوای URLهای موجود در OpenWebText ( https://github.com/jcpeterson/openwebtext ) را شامل شود.

  • حجم دانلود : 2.04 MiB

  • حجم مجموعه داده : 17.93 GiB

  • تقسیمات :

شکاف مثال ها
'train' 4,488,694
'validation' 4,486

c4/چند زبانه

  • توضیحات پیکربندی : C4 چند زبانه (mC4) دارای 101 زبان است و از 86 روگرفت Common Crawl ایجاد شده است.

  • حجم دانلود : 13.60 MiB

  • اندازه مجموعه داده : 38.49 TiB

  • تقسیمات :

شکاف مثال ها
'af' 1,770,414
'af-validation' 1,757
'am' 291,570
'am-validation' 289
'ar' 92,455,378
'ar-validation' 92,374
'az' 7,179,300
'az-validation' 7206
'be' 2,156,584
'be-validation' 2,103
'bg' 32,511,350
'bg-Latn' 44,290
'bg-Latn-validation' 41
'bg-validation' 32690
'bn' 15,183,514
'bn-validation' 15130
'ca' 19,438,615
'ca-validation' 19,562
'ceb' 415,208
'ceb-validation' 430
'co' 217,257
'co-validation' 211
'cs' 82,262,078
'cs-validation' 82594
'cy' 1,066,595
'cy-validation' 1,016
'da' 36,884,558
'da-validation' 37,071
'de' 545,956,997
'de-validation' 547,566
'el' 68,577,376
'el-Latn' 162004
'el-Latn-validation' 171
'el-validation' 69,435
'en' 3,928,733,379
'en-validation' 3,933,379
'eo' 560,151
'eo-validation' 546
'es' 591,272,119
'es-validation' 592,258
'et' 10,401,882
'et-validation' 10276
'eu' 2,077,113
'eu-validation' 2077
'fa' 81,252,911
'fa-validation' 81,034
'fi' 36,807,562
'fi-validation' 36512
'fil' 2,331,209
'fil-validation' 2,381
'fr' 454,229,019
'fr-validation' 453,124
'fy' 502,656
'fy-validation' 478
'ga' 611,457
'ga-validation' 631
'gd' 201,237
'gd-validation' 196
'gl' 3,762,255
'gl-validation' 3,811
'gu' 1,292,191
'gu-validation' 1,323
'ha' 363002
'ha-validation' 368
'haw' 103,043
'haw-validation' 99
'hi' 26,695,748
'hi-Latn' 251,231
'hi-Latn-validation' 261
'hi-validation' 26721
'hmn' 157,016
'hmn-validation' 175
'ht' 232,354
'ht-validation' 246
'hu' 56,645,732
'hu-validation' 56905
'hy' 3,873,029
'hy-validation' 3,804
'id' 19,423,746
'id-validation' 19601
'ig' 110,582
'ig-validation' 103
'is' 3,139,312
'is-validation' 3,210
'it' 267,686,115
'it-validation' 267,322
'iw' 17,607,812
'iw-validation' 17570
'ja' 85,226,039
'ja-Latn' 235,885
'ja-Latn-validation' 221
'ja-validation' 85618
'jv' 218,969
'jv-validation' 253
'ka' 3,726,808
'ka-validation' 3752
'kk' 3,421,165
'kk-validation' 3,443
'km' 1,384,128
'km-validation' 1,359
'kn' 1,916,445
'kn-validation' 1,895
'ko' 24,035,493
'ko-validation' 24,240
'ku' 399,027
'ku-validation' 417
'ky' 1,198,504
'ky-validation' 1,188
'la' 1,632,557
'la-validation' 1,630
'lb' 850,921
'lb-validation' 856
'lo' 302,612
'lo-validation' 290
'lt' 18,234,466
'lt-validation' 18,428
'lv' 9,882,376
'lv-validation' 10,034
'mg' 263,321
'mg-validation' 254
'mi' 148,146
'mi-validation' 156
'mk' 3,599,707
'mk-validation' 3713
'ml' 3,604,562
'ml-validation' 3,514
'mn' 2,947,312
'mn-validation' 3,021
'mr' 4,555,599
'mr-validation' 4602
'ms' 4,688,036
'ms-validation' 4719
'mt' 1,109,191
'mt-validation' 1207
'my' 1,248,242
'my-validation' 1,314
'ne' 4,679,412
'ne-validation' 4738
'nl' 136,379,427
'nl-validation' 137,142
'no' 30,644,684
'no-validation' 31,134
'ny' 114,952
'ny-validation' 121
'pa' 729,394
'pa-validation' 719
'pl' 178,690,573
'pl-validation' 178,481
'ps' 497,321
'ps-validation' 468
'pt' 246,401,954
'pt-validation' 246120
'ro' 66,499,899
'ro-validation' 66,384
'ru' 1,014,064,014
'ru-Latn' 582,022
'ru-Latn-validation' 616
'ru-validation' 1,014,169
'sd' 210,835
'sd-validation' 206
'si' 846125
'si-validation' 846
'sk' 26,721,250
'sk-validation' 26,882
'sl' 12,381,886
'sl-validation' 12,381
'sm' 102,125
'sm-validation' 108
'sn' 124,984
'sn-validation' 116
'so' 1,168,106
'so-validation' 1212
'sq' 7,023,573
'sq-validation' 7,057
'sr' 4,775,217
'sr-validation' 4804
'st' 99970
'st-validation' 103
'su' 153,302
'su-validation' 151
'sv' 63,308,307
'sv-validation' 63,488
'sw' 1,279,408
'sw-validation' 1296
'ta' 5,769,533
'ta-validation' 5770
'te' 2,034,828
'te-validation' 2010
'tg' 1,563,304
'tg-validation' 1,526
'th' 28,021,205
'th-validation' 28062
'tr' 132,662,955
'tr-validation' 133,062
'uk' 56,159,593
'uk-validation' 56,321
'und' 3,650,492,732
'und-validation' 3,656,588
'ur' 3,432,478
'ur-validation' 3,443
'uz' 1,183,603
'uz-validation' 1259
'vi' 132,667,573
'vi-validation' 132,915
'xh' 122232
'xh-validation' 117
'yi' 173,510
'yi-validation' 166
'yo' 86686
'yo-validation' 82
'zh' 214,856,503
'zh-Latn' 471,314
'zh-Latn-validation' 492
'zh-validation' 214733
'zu' 261239
'zu-validation' 253