- विवरण :
पृष्ठों के 40+ विकिपीडिया भाषाओं के संस्करणों के लिए क्लीन-अप टेक्स्ट संस्थाओं से मेल खाता है। डेटासेट में प्रति भाषा ट्रेन/डेवलप/टेस्ट विभाजन होता है। असंबद्धता वाले पेजों, रीडायरेक्ट पेजों, हटाए गए पेजों और गैर-इकाई वाले पेजों को हटाने के लिए पेज फ़िल्टरिंग द्वारा डेटासेट को साफ़ किया जाता है। प्रत्येक उदाहरण में इकाई की विकिडेटा आईडी और पृष्ठ प्रसंस्करण के बाद पूरा विकिपीडिया लेख शामिल है जो गैर-सामग्री अनुभागों और संरचित वस्तुओं को हटा देता है। इस कॉर्पस पर प्रशिक्षित भाषा मॉडल - जिसमें 41 मोनोलिंगुअल मॉडल और 2 बहुभाषी मॉडल शामिल हैं - https://tfhub.dev/google/collections/wiki40b-lm/1 पर पाए जा सकते हैं।
मुखपृष्ठ : https://research.google/pubs/pub49029/
स्रोत कोड :
tfds.text.Wiki40b
संस्करण :
-
1.3.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
Unknown size
फ़ीचर संरचना :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीप्रकार | विवरण |
---|---|---|---|---|
फीचर्सडिक्ट | ||||
मूलपाठ | मूलपाठ | डोरी | ||
संस्करण_आईडी | मूलपाठ | डोरी | ||
wikidata_id | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िग विवरण : en के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
9.91 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 162,274 |
'train' | 2,926,536 |
'validation' | 163,597 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/ar
कॉन्फ़िग विवरण : ar के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
833.20 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 12,271 |
'train' | 220,885 |
'validation' | 12,198 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/zh-cn
कॉन्फ़िगरेशन विवरण : zh-cn के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
985.53 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 30,355 |
'train' | 549,672 |
'validation' | 30,299 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/zh-tw
कॉन्फ़िगरेशन विवरण : zh-tw के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
986.45 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 30,670 |
'train' | 552,031 |
'validation' | 30,739 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/nl
कॉन्फ़िगरेशन विवरण : nl के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
961.82 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 24,776 |
'train' | 447,555 |
'validation' | 25,201 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/fr
कॉन्फ़िगरेशन विवरण : fr के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
3.37 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 68,004 |
'train' | 1,227,206 |
'validation' | 68,655 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/डी
कॉन्फ़िगरेशन विवरण : De के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
4.78 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 86,594 |
'train' | 1,554,910 |
'validation' | 86,068 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/it
कॉन्फ़िगरेशन विवरण : इसके लिए Wiki40B डेटासेट।
डेटासेट का आकार :
2.00 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 40,443 |
'train' | 732,609 |
'validation' | 40,684 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/ja
कॉन्फ़िगरेशन विवरण : ja के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
2.19 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 41,268 |
'train' | 745,392 |
'validation' | 41,576 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/ko
कॉन्फ़िगरेशन विवरण : ko के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
453.98 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 10,802 |
'train' | 194,977 |
'validation' | 10,805 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/पीएल
कॉन्फ़िगरेशन विवरण : pl के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
1.03 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 27,987 |
'train' | 505,191 |
'validation' | 28,310 |
- उदाहरण ( tfds.as_dataframe ):
विकी40बी/पीटी
कॉन्फ़िगरेशन विवरण : पीटी के लिए विकि40बी डेटासेट।
डेटासेट का आकार :
1.08 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 22,693 |
'train' | 406,507 |
'validation' | 22,301 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/ru
कॉन्फ़िग विवरण : ru के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
4.13 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 51,885 |
'train' | 926,037 |
'validation' | 51,287 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/es
कॉन्फ़िगरेशन विवरण : es के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
2.70 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 48,764 |
'train' | 872,541 |
'validation' | 48,592 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/थ
कॉन्फ़िगरेशन विवरण : वें के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
326.29 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 3,114 |
'train' | 56,798 |
'validation' | 3,093 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/टीआर
कॉन्फ़िगरेशन विवरण : tr के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
308.87 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 7,890 |
'train' | 142,576 |
'validation' | 7,845 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/बीजी
कॉन्फ़िगरेशन विवरण : बीजी के लिए विकी40बी डेटासेट।
डेटासेट का आकार :
433.20 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 7,289 |
'train' | 130,670 |
'validation' | 7,259 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/सीए
कॉन्फ़िगरेशन विवरण : सीए के लिए विकि40बी डेटासेट।
डेटासेट का आकार :
753.00 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 15,568 |
'train' | 277,313 |
'validation' | 15,362 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/सीएस
कॉन्फ़िगरेशन विवरण : सीएस के लिए विकी40बी डेटासेट।
डेटासेट का आकार :
631.84 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 12,984 |
'train' | 235,971 |
'validation' | 13,096 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/da
कॉन्फ़िगरेशन विवरण : da के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
240.51 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 6,219 |
'train' | 109,486 |
'validation' | 6,173 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/el
कॉन्फ़िगरेशन विवरण : एल के लिए विकी40बी डेटासेट।
डेटासेट का आकार :
524.77 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 5,261 |
'train' | 93,596 |
'validation' | 5,130 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/et
कॉन्फ़िगरेशन विवरण : एट के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
184.07 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 6,205 |
'train' | 114,464 |
'validation' | 6,351 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एफए
कॉन्फ़िगरेशन विवरण : पिता के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
482.55 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 11,262 |
'train' | 203,145 |
'validation' | 11,180 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/फाई
कॉन्फ़िगरेशन विवरण : Fi के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
534.13 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 14,179 |
'train' | 255,822 |
'validation' | 13,962 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/he
कॉन्फ़िगरेशन विवरण : उसके लिए Wiki40B डेटासेट।
डेटासेट का आकार :
869.51 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 9,344 |
'train' | 165,359 |
'validation' | 9,231 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/हाय
कॉन्फ़िगरेशन विवरण : हाय के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
277.56 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,643 |
'train' | 45,737 |
'validation' | 2,596 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/घंटा
कॉन्फ़िगरेशन विवरण : घंटे के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
235.58 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 5,724 |
'train' | 103,857 |
'validation' | 5,792 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/hu
कॉन्फ़िगरेशन विवरण : hu के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
634.25 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 15,258 |
'train' | 273,248 |
'validation' | 15,208 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/आईडी
कॉन्फ़िगरेशन विवरण : आईडी के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
334.06 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 8,598 |
'train' | 156,255 |
'validation' | 8,714 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एलटी
कॉन्फ़िगरेशन विवरण : लेफ्टिनेंट के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
140.46 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 4,683 |
'train' | 84,854 |
'validation' | 4,754 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एलवी
कॉन्फ़िगरेशन विवरण : lv के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
80.07 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,932 |
'train' | 33,064 |
'validation' | 1,857 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एमएस
कॉन्फ़िगरेशन विवरण : एमएस के लिए विकी40बी डेटासेट।
डेटासेट का आकार :
142.49 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 5,235 |
'train' | 97,509 |
'validation' | 5,357 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/सं
कॉन्फ़िगरेशन विवरण : संख्या के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
382.03 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 10,588 |
'train' | 190,588 |
'validation' | 10,547 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/आरओ
कॉन्फ़िगरेशन विवरण : ro के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
319.68 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 7,870 |
'train' | 139,615 |
'validation' | 7,624 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/sk
कॉन्फ़िगरेशन विवरण : एसके के लिए विकी40बी डेटासेट।
डेटासेट का आकार :
170.20 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 5,741 |
'train' | 103,095 |
'validation' | 5,604 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एसएल
कॉन्फ़िगरेशन विवरण : sl के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
157.38 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल तभी जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 3,341 |
'train' | 60,927 |
'validation' | 3,287 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एसआर
कॉन्फ़िगरेशन विवरण : सीनियर के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
582.20 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 17,997 |
'train' | 327,313 |
'validation' | 18,100 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/एसवी
कॉन्फ़िगरेशन विवरण : sv के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
613.62 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 22,291 |
'train' | 400,742 |
'validation' | 22,263 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/टीएल
कॉन्फ़िगरेशन विवरण : टीएल के लिए विकी40बी डेटासेट।
डेटासेट का आकार :
29.04 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,446 |
'train' | 25,940 |
'validation' | 1,472 |
- उदाहरण ( tfds.as_dataframe ):
विकि40बी/यूके
कॉन्फ़िगरेशन विवरण : यूके के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
1.67 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 26,581 |
'train' | 477,618 |
'validation' | 26,324 |
- उदाहरण ( tfds.as_dataframe ):
wiki40b/vi
कॉन्फ़िगरेशन विवरण : vi के लिए Wiki40B डेटासेट।
डेटासेट का आकार :
497.70 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 7,942 |
'train' | 146,255 |
'validation' | 8,195 |
- उदाहरण ( tfds.as_dataframe ):