- الوصف :
نص التنظيف لأكثر من 40 إصدارًا من صفحات ويكيبيديا يتوافق مع الكيانات. تحتوي مجموعات البيانات على تقسيمات تدريب/تطوير/اختبار لكل لغة. يتم تنظيف مجموعة البيانات عن طريق تصفية الصفحات لإزالة صفحات التوضيح، وصفحات إعادة التوجيه، والصفحات المحذوفة، والصفحات غير المتعلقة بالكيان. يحتوي كل مثال على معرف ويكي بيانات الكيان، ومقالة ويكيبيديا الكاملة بعد معالجة الصفحة التي تزيل الأقسام غير المتعلقة بالمحتوى والكائنات المنظمة. يمكن العثور على نماذج اللغة التي تم تدريبها على هذه المجموعة - بما في ذلك 41 نموذجًا أحادي اللغة ونموذجين متعددي اللغات - على https://tfhub.dev/google/collections/wiki40b-lm/1
وثائق إضافية : استكشاف الأوراق باستخدام الكود
الصفحة الرئيسية : https://research.google/pubs/pub49029/
كود المصدر :
tfds.text.Wiki40b
الإصدارات :
-
1.3.0
(افتراضي): لا توجد ملاحظات الإصدار.
-
حجم التحميل :
Unknown size
هيكل الميزة :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع D | وصف |
---|---|---|---|---|
المميزاتDict | ||||
نص | نص | خيط | ||
version_id | نص | خيط | ||
wikidata_id | نص | خيط |
المفاتيح الخاضعة للإشراف (راجع
as_supervised
doc ):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (التكوين الافتراضي)
وصف التكوين : مجموعة بيانات Wiki40B لـ en.
حجم مجموعة البيانات :
9.91 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 162,274 |
'train' | 2,926,536 |
'validation' | 163,597 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/ar
وصف التكوين : مجموعة بيانات Wiki40B لـ ar.
حجم مجموعة البيانات :
833.20 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 12,271 |
'train' | 220,885 |
'validation' | 12,198 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/zh-cn
وصف التكوين : مجموعة بيانات Wiki40B لـ zh-cn.
حجم مجموعة البيانات :
985.53 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 30,355 |
'train' | 549,672 |
'validation' | 30,299 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/zh-tw
وصف التكوين : مجموعة بيانات Wiki40B لـ zh-tw.
حجم مجموعة البيانات :
986.45 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 30,670 |
'train' | 552,031 |
'validation' | 30,739 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/nl
وصف التكوين : مجموعة بيانات Wiki40B لـ nl.
حجم مجموعة البيانات :
961.82 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 24,776 |
'train' | 447,555 |
'validation' | 25,201 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/الاب
وصف التكوين : مجموعة بيانات Wiki40B لـ fr.
حجم مجموعة البيانات :
3.37 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 68,004 |
'train' | 1,227,206 |
'validation' | 68,655 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/دي
وصف التكوين : مجموعة بيانات Wiki40B لـ de.
حجم مجموعة البيانات :
4.78 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 86,594 |
'train' | 1,554,910 |
'validation' | 86,068 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/it
وصف التكوين : مجموعة بيانات Wiki40B الخاصة به.
حجم مجموعة البيانات :
2.00 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 40,443 |
'train' | 732,609 |
'validation' | 40,684 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/ja
وصف التكوين : مجموعة بيانات Wiki40B لـ ja.
حجم مجموعة البيانات :
2.19 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 41,268 |
'train' | 745,392 |
'validation' | 41,576 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/كو
وصف التكوين : مجموعة بيانات Wiki40B لـ ko.
حجم مجموعة البيانات :
453.98 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 10802 |
'train' | 194,977 |
'validation' | 10,805 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/pl
وصف التكوين : مجموعة بيانات Wiki40B لـ pl.
حجم مجموعة البيانات :
1.03 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 27,987 |
'train' | 505,191 |
'validation' | 28,310 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/pt
وصف التكوين : مجموعة بيانات Wiki40B لـ pt.
حجم مجموعة البيانات :
1.08 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 22,693 |
'train' | 406,507 |
'validation' | 22,301 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/ru
وصف التكوين : مجموعة بيانات Wiki40B لـ ru.
حجم مجموعة البيانات :
4.13 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 51,885 |
'train' | 926,037 |
'validation' | 51,287 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/إس
وصف التكوين : مجموعة بيانات Wiki40B لـ es.
حجم مجموعة البيانات :
2.70 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 48,764 |
'train' | 872,541 |
'validation' | 48,592 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/th
وصف التكوين : مجموعة بيانات Wiki40B لـ th.
حجم مجموعة البيانات :
326.29 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 3,114 |
'train' | 56,798 |
'validation' | 3,093 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/tr
وصف التكوين : مجموعة بيانات Wiki40B لـ tr.
حجم مجموعة البيانات :
308.87 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 7,890 |
'train' | 142,576 |
'validation' | 7,845 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/بج
وصف التكوين : مجموعة بيانات Wiki40B لـ bg.
حجم مجموعة البيانات :
433.20 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 7,289 |
'train' | 130,670 |
'validation' | 7,259 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/ca
وصف التكوين : مجموعة بيانات Wiki40B لـ ca.
حجم مجموعة البيانات :
753.00 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 15,568 |
'train' | 277,313 |
'validation' | 15,362 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/cs
وصف التكوين : مجموعة بيانات Wiki40B لـ cs.
حجم مجموعة البيانات :
631.84 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 12,984 |
'train' | 235,971 |
'validation' | 13,096 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/دا
وصف التكوين : مجموعة بيانات Wiki40B لـ da.
حجم مجموعة البيانات :
240.51 MiB
تخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون
shuffle_files=False
(تدريب)الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 6,219 |
'train' | 109,486 |
'validation' | 6,173 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/el
وصف التكوين : مجموعة بيانات Wiki40B لـ el.
حجم مجموعة البيانات :
524.77 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 5,261 |
'train' | 93,596 |
'validation' | 5,130 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/وآخرون
وصف التكوين : مجموعة بيانات Wiki40B لـ et.
حجم مجموعة البيانات :
184.07 MiB
تخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون
shuffle_files=False
(تدريب)الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 6,205 |
'train' | 114,464 |
'validation' | 6,351 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/fa
وصف التكوين : مجموعة بيانات Wiki40B لـ fa.
حجم مجموعة البيانات :
482.55 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 11,262 |
'train' | 203,145 |
'validation' | 11,180 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/fi
وصف التكوين : مجموعة بيانات Wiki40B لـ fi.
حجم مجموعة البيانات :
534.13 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 14,179 |
'train' | 255,822 |
'validation' | 13,962 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/هي
وصف التكوين : مجموعة بيانات Wiki40B له.
حجم مجموعة البيانات :
869.51 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 9,344 |
'train' | 165,359 |
'validation' | 9,231 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/مرحبا
وصف التكوين : مجموعة بيانات Wiki40B لـ hi.
حجم مجموعة البيانات :
277.56 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 2,643 |
'train' | 45,737 |
'validation' | 2,596 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/ساعة
وصف التكوين : مجموعة بيانات Wiki40B لـ hr.
حجم مجموعة البيانات :
235.58 MiB
تخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون
shuffle_files=False
(تدريب)الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 5,724 |
'train' | 103,857 |
'validation' | 5,792 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/هو
وصف التكوين : مجموعة بيانات Wiki40B لـ hu.
حجم مجموعة البيانات :
634.25 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 15,258 |
'train' | 273,248 |
'validation' | 15,208 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/معرف
وصف التكوين : مجموعة بيانات Wiki40B للمعرف.
حجم مجموعة البيانات :
334.06 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 8,598 |
'train' | 156,255 |
'validation' | 8,714 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/لتر
وصف التكوين : مجموعة بيانات Wiki40B لـ lt.
حجم مجموعة البيانات :
140.46 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 4,683 |
'train' | 84,854 |
'validation' | 4,754 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/lv
وصف التكوين : مجموعة بيانات Wiki40B للمستوى lv.
حجم مجموعة البيانات :
80.07 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 1,932 |
'train' | 33,064 |
'validation' | 1,857 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/ مللي ثانية
وصف التكوين : مجموعة بيانات Wiki40B لـ ms.
حجم مجموعة البيانات :
142.49 MiB
تخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون
shuffle_files=False
(تدريب)الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 5,235 |
'train' | 97,509 |
'validation' | 5,357 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/لا
وصف التكوين : مجموعة بيانات Wiki40B للرقم.
حجم مجموعة البيانات :
382.03 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 10,588 |
'train' | 190,588 |
'validation' | 10,547 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/ro
وصف التكوين : مجموعة بيانات Wiki40B لـ ro.
حجم مجموعة البيانات :
319.68 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 7,870 |
'train' | 139,615 |
'validation' | 7,624 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/sk
وصف التكوين : مجموعة بيانات Wiki40B لـ sk.
حجم مجموعة البيانات :
170.20 MiB
تخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون
shuffle_files=False
(تدريب)الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 5,741 |
'train' | 103,095 |
'validation' | 5,604 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/sl
وصف التكوين : مجموعة بيانات Wiki40B لـ sl.
حجم مجموعة البيانات :
157.38 MiB
تخزين مؤقت تلقائي ( الوثائق ): نعم (اختبار، التحقق من الصحة)، فقط عندما تكون
shuffle_files=False
(تدريب)الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 3,341 |
'train' | 60,927 |
'validation' | 3,287 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/ريال
وصف التكوين : مجموعة بيانات Wiki40B لـ sr.
حجم مجموعة البيانات :
582.20 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 17,997 |
'train' | 327,313 |
'validation' | 18,100 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/sv
وصف التكوين : مجموعة بيانات Wiki40B لـ sv.
حجم مجموعة البيانات :
613.62 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 22,291 |
'train' | 400,742 |
'validation' | 22,263 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/tl
وصف التكوين : مجموعة بيانات Wiki40B لـ tl.
حجم مجموعة البيانات :
29.04 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 1,446 |
'train' | 25,940 |
'validation' | 1,472 |
- أمثلة ( tfds.as_dataframe ):
ويكي40ب/المملكة المتحدة
وصف التكوين : مجموعة بيانات Wiki40B للمملكة المتحدة.
حجم مجموعة البيانات :
1.67 GiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 26,581 |
'train' | 477,618 |
'validation' | 26,324 |
- أمثلة ( tfds.as_dataframe ):
wiki40b/السادس
وصف التكوين : مجموعة بيانات Wiki40B لـ vi.
حجم مجموعة البيانات :
497.70 MiB
التخزين المؤقت التلقائي ( الوثائق ): لا
الإنشقاقات :
ينقسم | أمثلة |
---|---|
'test' | 7,942 |
'train' | 146,255 |
'validation' | 8,195 |
- أمثلة ( tfds.as_dataframe ):