- الوصف :
إصدار ضخم ومنظف من مجموعة زحف الويب الخاصة بـ Common Crawl.
استنادًا إلى مجموعة بيانات الزحف الشائعة: https://commoncrawl.org
لإنشاء مجموعة البيانات هذه ، يرجى اتباع التعليمات من t5 .
نظرًا للجهد المبذول في تنظيف مجموعة البيانات ، يوصى بإعدادها بخدمة موزعة مثل Cloud Dataflow. مزيد من المعلومات على https://www.tensorflow.org/datasets/beam_datasets
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/google-research/text-to-text-transfer-transformer#datasets
كود المصدر :
tfds.text.C4
إصدارات :
-
2.2.0
: لا توجد ملاحظات إصدار. -
2.2.1
: لا توجد ملاحظات إصدار. -
2.3.0
: لا توجد ملاحظات إصدار. -
2.3.1
: لا توجد ملاحظات الإصدار. -
3.1.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعدادات الافتراضية على~/tensorflow_datasets/downloads/manual/
):
أنت تستخدم تهيئة C4 تتطلب تنزيل بعض الملفات يدويًا. بالنسبة إلىc4/webtextlike
، قم بتنزيل OpenWebText.zip من https://mega.nz/#F!EZZD0YwJ!9_PlEQzdMVLaNdKv_ICNVQالتخزين المؤقت التلقائي ( التوثيق ): لا
هيكل الميزة :
FeaturesDict({
'content-length': Text(shape=(), dtype=string),
'content-type': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
طول المحتوى | نص | سلسلة | ||
نوع المحتوى | نص | سلسلة | ||
نص | نص | سلسلة | ||
الطابع الزمني | نص | سلسلة | ||
عنوان url | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{2019t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {arXiv e-prints},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.10683},
}
c4 / en (التكوين الافتراضي)
وصف التكوين : مجموعة بيانات باللغة الإنجليزية C4.
حجم التحميل :
201.98 KiB
حجم مجموعة البيانات :
806.87 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 364،613،570 |
'validation' | 364.724 |
- أمثلة ( tfds.as_dataframe ):
c4 / en.noclean
وصف التكوين : تعطيل جميع عمليات التنظيف (إزالة البيانات المكررة ، والإزالة بناءً على الكلمات السيئة ، وما إلى ذلك)
حجم التحميل :
177.11 KiB
حجم مجموعة البيانات :
6.21 TiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 1،063،805،169 |
'validation' | 1،065،028 |
- أمثلة ( tfds.as_dataframe ):
c4 / realnewslike
وصف التكوين : عوامل التصفية من التكوين الافتراضي لتضمين فقط المحتوى من المجالات المستخدمة في مجموعة بيانات "RealNews" (Zellers et al.، 2019).
حجم التحميل :
340.29 KiB
حجم مجموعة البيانات :
36.91 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 13،804،817 |
'validation' | 13855 |
- أمثلة ( tfds.as_dataframe ):
c4 / webtextlike
وصف التكوين : مرشحات من التكوين الافتراضي لتضمين فقط المحتوى من عناوين URL في OpenWebText ( https://github.com/jcpeterson/openwebtext ).
حجم التحميل :
2.04 MiB
حجم مجموعة البيانات :
17.93 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 4،488،694 |
'validation' | 4،486 |
- أمثلة ( tfds.as_dataframe ):
c4 / متعدد اللغات
وصف التكوين : متعدد اللغات (mC4) به 101 لغة ويتم إنشاؤه من 86 مقالب الزحف الشائعة.
حجم التحميل :
13.60 MiB
حجم مجموعة البيانات :
38.49 TiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'af' | 1،770414 |
'af-validation' | 1،757 |
'am' | 291570 |
'am-validation' | 289 |
'ar' | 92،455،378 |
'ar-validation' | 92374 |
'az' | 7179300 |
'az-validation' | 7،206 |
'be' | 2،156،584 |
'be-validation' | 2،103 |
'bg' | 32.511.350 |
'bg-Latn' | 44290 |
'bg-Latn-validation' | 41 |
'bg-validation' | 32690 |
'bn' | 15183.514 |
'bn-validation' | 15،130 |
'ca' | 19،438،615 |
'ca-validation' | 19562 |
'ceb' | 415208 |
'ceb-validation' | 430 |
'co' | 217257 |
'co-validation' | 211 |
'cs' | 82،262،078 |
'cs-validation' | 82.594 |
'cy' | 1،066،595 |
'cy-validation' | 1،016 |
'da' | 36،884،558 |
'da-validation' | 37.071 |
'de' | 545،956،997 |
'de-validation' | 547.566 |
'el' | 68.577.376 |
'el-Latn' | 162.004 |
'el-Latn-validation' | 171 |
'el-validation' | 69435 |
'en' | 3،928،733،379 |
'en-validation' | 3،933،379 |
'eo' | 560151 |
'eo-validation' | 546 |
'es' | 591،272،119 |
'es-validation' | 592258 |
'et' | 10،401،882 |
'et-validation' | 10276 |
'eu' | 2،077،113 |
'eu-validation' | 2077 |
'fa' | 81252911 |
'fa-validation' | 81034 |
'fi' | 36807.562 |
'fi-validation' | 36512 |
'fil' | 2،331،209 |
'fil-validation' | 2،381 |
'fr' | 454229.019 |
'fr-validation' | 453124 |
'fy' | 502،656 |
'fy-validation' | 478 |
'ga' | 611457 |
'ga-validation' | 631 |
'gd' | 201.237 |
'gd-validation' | 196 |
'gl' | 3،762،255 |
'gl-validation' | 3811 |
'gu' | 1،292،191 |
'gu-validation' | 1،323 |
'ha' | 363،002 |
'ha-validation' | 368 |
'haw' | 103،043 |
'haw-validation' | 99 |
'hi' | 26695748 |
'hi-Latn' | 251231 |
'hi-Latn-validation' | 261 |
'hi-validation' | 26721 |
'hmn' | 157.016 |
'hmn-validation' | 175 |
'ht' | 232354 |
'ht-validation' | 246 |
'hu' | 56،645،732 |
'hu-validation' | 56905 |
'hy' | 3،873،029 |
'hy-validation' | 3،804 |
'id' | 19،423،746 |
'id-validation' | 19601 |
'ig' | 110.582 |
'ig-validation' | 103 |
'is' | 3،139،312 |
'is-validation' | 3210 |
'it' | 267686115 |
'it-validation' | 267322 |
'iw' | 17،607،812 |
'iw-validation' | 17.570 |
'ja' | 85226039 |
'ja-Latn' | 235،885 |
'ja-Latn-validation' | 221 |
'ja-validation' | 85618 |
'jv' | 218969 |
'jv-validation' | 253 |
'ka' | 3،726،808 |
'ka-validation' | 3،752 |
'kk' | 3،421،165 |
'kk-validation' | 3،443 |
'km' | 1،384،128 |
'km-validation' | 1،359 |
'kn' | 1،916،445 |
'kn-validation' | 1،895 |
'ko' | 24،035،493 |
'ko-validation' | 24،240 |
'ku' | 399027 |
'ku-validation' | 417 |
'ky' | 1،198،504 |
'ky-validation' | 1،188 |
'la' | 1،632،557 |
'la-validation' | 1،630 |
'lb' | 850921 |
'lb-validation' | 856 |
'lo' | 302612 |
'lo-validation' | 290 |
'lt' | 18،234،466 |
'lt-validation' | 18،428 |
'lv' | 9،882،376 |
'lv-validation' | 10،034 |
'mg' | 263321 |
'mg-validation' | 254 |
'mi' | 148146 |
'mi-validation' | 156 |
'mk' | 3،599،707 |
'mk-validation' | 3،713 |
'ml' | 3،604،562 |
'ml-validation' | 3،514 |
'mn' | 2،947312 |
'mn-validation' | 3،021 |
'mr' | 4،555،599 |
'mr-validation' | 4،602 |
'ms' | 4،688،036 |
'ms-validation' | 4،719 |
'mt' | 1،109،191 |
'mt-validation' | 1،207 |
'my' | 1،248،242 |
'my-validation' | 1،314 |
'ne' | 4،679،412 |
'ne-validation' | 4،738 |
'nl' | 136،379،427 |
'nl-validation' | 137142 |
'no' | 30،644،684 |
'no-validation' | 31134 |
'ny' | 114952 |
'ny-validation' | 121 |
'pa' | 729394 |
'pa-validation' | 719 |
'pl' | 178،690،573 |
'pl-validation' | 178481 |
'ps' | 497321 |
'ps-validation' | 468 |
'pt' | 246401954 |
'pt-validation' | 246120 |
'ro' | 66،499،899 |
'ro-validation' | 66384 |
'ru' | 1،014،064،014 |
'ru-Latn' | 582،022 |
'ru-Latn-validation' | 616 |
'ru-validation' | 1،014،169 |
'sd' | 210835 |
'sd-validation' | 206 |
'si' | 846125 |
'si-validation' | 846 |
'sk' | 26721250 |
'sk-validation' | 26882 |
'sl' | 12،381،886 |
'sl-validation' | 12381 |
'sm' | 102125 |
'sm-validation' | 108 |
'sn' | 124،984 |
'sn-validation' | 116 |
'so' | 1،168،106 |
'so-validation' | 1،212 |
'sq' | 7،023،573 |
'sq-validation' | 7057 |
'sr' | 4،775217 |
'sr-validation' | 4،804 |
'st' | 99.970 |
'st-validation' | 103 |
'su' | 153302 |
'su-validation' | 151 |
'sv' | 63308307 |
'sv-validation' | 63488 |
'sw' | 1،279،408 |
'sw-validation' | 1،296 |
'ta' | 5،769،533 |
'ta-validation' | 5770 |
'te' | 2034828 |
'te-validation' | 2،010 |
'tg' | 1،563304 |
'tg-validation' | 1،526 |
'th' | 28،021،205 |
'th-validation' | 28.062 |
'tr' | 132،662،955 |
'tr-validation' | 133.062 |
'uk' | 56159593 |
'uk-validation' | 56321 |
'und' | 3،650،492،732 |
'und-validation' | 3،656،588 |
'ur' | 3،432،478 |
'ur-validation' | 3،443 |
'uz' | 1،183،603 |
'uz-validation' | 1،259 |
'vi' | 132،667،573 |
'vi-validation' | 132،915 |
'xh' | 122،232 |
'xh-validation' | 117 |
'yi' | 173.510 |
'yi-validation' | 166 |
'yo' | 86686 |
'yo-validation' | 82 |
'zh' | 214،856،503 |
'zh-Latn' | 471314 |
'zh-Latn-validation' | 492 |
'zh-validation' | 214.733 |
'zu' | 261239 |
'zu-validation' | 253 |
- أمثلة ( tfds.as_dataframe ):