ج 4

  • الوصف :

إصدار ضخم ومنظف من مجموعة زحف الويب الخاصة بـ Common Crawl.

استنادًا إلى مجموعة بيانات الزحف الشائعة: https://commoncrawl.org

لإنشاء مجموعة البيانات هذه ، يرجى اتباع التعليمات من t5 .

نظرًا للجهد المبذول في تنظيف مجموعة البيانات ، يوصى بإعدادها بخدمة موزعة مثل Cloud Dataflow. مزيد من المعلومات على https://www.tensorflow.org/datasets/beam_datasets

  • وثائق إضافية : استكشف في الأوراق باستخدام الرمز

  • الصفحة الرئيسية : https://github.com/google-research/text-to-text-transfer-transformer#datasets

  • كود المصدر : tfds.text.C4

  • إصدارات :

    • 2.2.0 : لا توجد ملاحظات إصدار.
    • 2.2.1 : لا توجد ملاحظات إصدار.
    • 2.3.0 : لا توجد ملاحظات إصدار.
    • 2.3.1 : لا توجد ملاحظات الإصدار.
    • 3.1.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    أنت تستخدم تهيئة C4 تتطلب تنزيل بعض الملفات يدويًا. بالنسبة إلى c4/webtextlike ، قم بتنزيل OpenWebText.zip من https://mega.nz/#F!EZZD0YwJ!9_PlEQzdMVLaNdKv_ICNVQ

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • هيكل الميزة :

FeaturesDict({
    'content-length': Text(shape=(), dtype=string),
    'content-type': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'timestamp': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
طول المحتوى نص سلسلة
نوع المحتوى نص سلسلة
نص نص سلسلة
الطابع الزمني نص سلسلة
عنوان url نص سلسلة
@article{2019t5,
  author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {arXiv e-prints},
  year = {2019},
  archivePrefix = {arXiv},
  eprint = {1910.10683},
}

c4 / en (التكوين الافتراضي)

  • وصف التكوين : مجموعة بيانات باللغة الإنجليزية C4.

  • حجم التحميل : 201.98 KiB

  • حجم مجموعة البيانات : 806.87 GiB

  • الانقسامات :

انشق، مزق أمثلة
'train' 364،613،570
'validation' 364.724

c4 / en.noclean

  • وصف التكوين : تعطيل جميع عمليات التنظيف (إزالة البيانات المكررة ، والإزالة بناءً على الكلمات السيئة ، وما إلى ذلك)

  • حجم التحميل : 177.11 KiB

  • حجم مجموعة البيانات : 6.21 TiB

  • الانقسامات :

انشق، مزق أمثلة
'train' 1،063،805،169
'validation' 1،065،028

c4 / realnewslike

  • وصف التكوين : عوامل التصفية من التكوين الافتراضي لتضمين فقط المحتوى من المجالات المستخدمة في مجموعة بيانات "RealNews" (Zellers et al.، 2019).

  • حجم التحميل : 340.29 KiB

  • حجم مجموعة البيانات : 36.91 GiB

  • الانقسامات :

انشق، مزق أمثلة
'train' 13،804،817
'validation' 13855

c4 / webtextlike

  • وصف التكوين : مرشحات من التكوين الافتراضي لتضمين فقط المحتوى من عناوين URL في OpenWebText ( https://github.com/jcpeterson/openwebtext ).

  • حجم التحميل : 2.04 MiB

  • حجم مجموعة البيانات : 17.93 GiB

  • الانقسامات :

انشق، مزق أمثلة
'train' 4،488،694
'validation' 4،486

c4 / متعدد اللغات

  • وصف التكوين : متعدد اللغات (mC4) به 101 لغة ويتم إنشاؤه من 86 مقالب الزحف الشائعة.

  • حجم التحميل : 13.60 MiB

  • حجم مجموعة البيانات : 38.49 TiB

  • الانقسامات :

انشق، مزق أمثلة
'af' 1،770414
'af-validation' 1،757
'am' 291570
'am-validation' 289
'ar' 92،455،378
'ar-validation' 92374
'az' 7179300
'az-validation' 7،206
'be' 2،156،584
'be-validation' 2،103
'bg' 32.511.350
'bg-Latn' 44290
'bg-Latn-validation' 41
'bg-validation' 32690
'bn' 15183.514
'bn-validation' 15،130
'ca' 19،438،615
'ca-validation' 19562
'ceb' 415208
'ceb-validation' 430
'co' 217257
'co-validation' 211
'cs' 82،262،078
'cs-validation' 82.594
'cy' 1،066،595
'cy-validation' 1،016
'da' 36،884،558
'da-validation' 37.071
'de' 545،956،997
'de-validation' 547.566
'el' 68.577.376
'el-Latn' 162.004
'el-Latn-validation' 171
'el-validation' 69435
'en' 3،928،733،379
'en-validation' 3،933،379
'eo' 560151
'eo-validation' 546
'es' 591،272،119
'es-validation' 592258
'et' 10،401،882
'et-validation' 10276
'eu' 2،077،113
'eu-validation' 2077
'fa' 81252911
'fa-validation' 81034
'fi' 36807.562
'fi-validation' 36512
'fil' 2،331،209
'fil-validation' 2،381
'fr' 454229.019
'fr-validation' 453124
'fy' 502،656
'fy-validation' 478
'ga' 611457
'ga-validation' 631
'gd' 201.237
'gd-validation' 196
'gl' 3،762،255
'gl-validation' 3811
'gu' 1،292،191
'gu-validation' 1،323
'ha' 363،002
'ha-validation' 368
'haw' 103،043
'haw-validation' 99
'hi' 26695748
'hi-Latn' 251231
'hi-Latn-validation' 261
'hi-validation' 26721
'hmn' 157.016
'hmn-validation' 175
'ht' 232354
'ht-validation' 246
'hu' 56،645،732
'hu-validation' 56905
'hy' 3،873،029
'hy-validation' 3،804
'id' 19،423،746
'id-validation' 19601
'ig' 110.582
'ig-validation' 103
'is' 3،139،312
'is-validation' 3210
'it' 267686115
'it-validation' 267322
'iw' 17،607،812
'iw-validation' 17.570
'ja' 85226039
'ja-Latn' 235،885
'ja-Latn-validation' 221
'ja-validation' 85618
'jv' 218969
'jv-validation' 253
'ka' 3،726،808
'ka-validation' 3،752
'kk' 3،421،165
'kk-validation' 3،443
'km' 1،384،128
'km-validation' 1،359
'kn' 1،916،445
'kn-validation' 1،895
'ko' 24،035،493
'ko-validation' 24،240
'ku' 399027
'ku-validation' 417
'ky' 1،198،504
'ky-validation' 1،188
'la' 1،632،557
'la-validation' 1،630
'lb' 850921
'lb-validation' 856
'lo' 302612
'lo-validation' 290
'lt' 18،234،466
'lt-validation' 18،428
'lv' 9،882،376
'lv-validation' 10،034
'mg' 263321
'mg-validation' 254
'mi' 148146
'mi-validation' 156
'mk' 3،599،707
'mk-validation' 3،713
'ml' 3،604،562
'ml-validation' 3،514
'mn' 2،947312
'mn-validation' 3،021
'mr' 4،555،599
'mr-validation' 4،602
'ms' 4،688،036
'ms-validation' 4،719
'mt' 1،109،191
'mt-validation' 1،207
'my' 1،248،242
'my-validation' 1،314
'ne' 4،679،412
'ne-validation' 4،738
'nl' 136،379،427
'nl-validation' 137142
'no' 30،644،684
'no-validation' 31134
'ny' 114952
'ny-validation' 121
'pa' 729394
'pa-validation' 719
'pl' 178،690،573
'pl-validation' 178481
'ps' 497321
'ps-validation' 468
'pt' 246401954
'pt-validation' 246120
'ro' 66،499،899
'ro-validation' 66384
'ru' 1،014،064،014
'ru-Latn' 582،022
'ru-Latn-validation' 616
'ru-validation' 1،014،169
'sd' 210835
'sd-validation' 206
'si' 846125
'si-validation' 846
'sk' 26721250
'sk-validation' 26882
'sl' 12،381،886
'sl-validation' 12381
'sm' 102125
'sm-validation' 108
'sn' 124،984
'sn-validation' 116
'so' 1،168،106
'so-validation' 1،212
'sq' 7،023،573
'sq-validation' 7057
'sr' 4،775217
'sr-validation' 4،804
'st' 99.970
'st-validation' 103
'su' 153302
'su-validation' 151
'sv' 63308307
'sv-validation' 63488
'sw' 1،279،408
'sw-validation' 1،296
'ta' 5،769،533
'ta-validation' 5770
'te' 2034828
'te-validation' 2،010
'tg' 1،563304
'tg-validation' 1،526
'th' 28،021،205
'th-validation' 28.062
'tr' 132،662،955
'tr-validation' 133.062
'uk' 56159593
'uk-validation' 56321
'und' 3،650،492،732
'und-validation' 3،656،588
'ur' 3،432،478
'ur-validation' 3،443
'uz' 1،183،603
'uz-validation' 1،259
'vi' 132،667،573
'vi-validation' 132،915
'xh' 122،232
'xh-validation' 117
'yi' 173.510
'yi-validation' 166
'yo' 86686
'yo-validation' 82
'zh' 214،856،503
'zh-Latn' 471314
'zh-Latn-validation' 492
'zh-validation' 214.733
'zu' 261239
'zu-validation' 253