- विवरण :
एक चिकित्सा संक्षिप्त नाम विस्तार डेटासेट जो C4 डेटासेट पर वेब-स्केल रिवर्स प्रतिस्थापन (wsrs) लागू करता है, जो कि कॉमन क्रॉल के वेब क्रॉल कॉर्पस का एक विशाल, साफ संस्करण है।
मूल स्रोत कॉमन क्रॉल डेटासेट है: https://commoncrawl.org
कॉन्फ़िगरेशन विवरण : डिफ़ॉल्ट C4-WSRS डेटासेट।
मुखपृष्ठ : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
स्रोत कोड :
tfds.text.c4_wsrs.C4WSRS
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
143.01 KiB
डेटासेट का आकार :
5.84 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 9,575,852 |
'validation' | 991,422 |
- फ़ीचर संरचना :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
abbreviated_snippet | मूलपाठ | डोरी | ||
original_snippet | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :