c4_wsrs

  • विवरण :

एक चिकित्सा संक्षिप्त नाम विस्तार डेटासेट जो C4 डेटासेट पर वेब-स्केल रिवर्स प्रतिस्थापन (wsrs) लागू करता है, जो कि कॉमन क्रॉल के वेब क्रॉल कॉर्पस का एक विशाल, साफ संस्करण है।

मूल स्रोत कॉमन क्रॉल डेटासेट है: https://commoncrawl.org

विभाजित करना उदाहरण
'train' 9,575,852
'validation' 991,422
  • फ़ीचर संरचना :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
abbreviated_snippet मूलपाठ डोरी
original_snippet मूलपाठ डोरी
  • उद्धरण :

c4_wsrs/डिफ़ॉल्ट (डिफ़ॉल्ट कॉन्फ़िगरेशन)