- الوصف :
مجموعة بيانات توسيع الاختصارات الطبية التي تطبق الاستبدال العكسي لمقياس الويب (WSRS) على مجموعة بيانات C4 ، وهي نسخة ضخمة ومُنظَّفة من مجموعة زحف الويب الخاصة بـ Common Crawl.
المصدر الأصلي هو مجموعة بيانات الزحف الشائعة: https://commoncrawl.org
وصف التكوين : مجموعة بيانات C4-WSRS الافتراضية.
الصفحة الرئيسية : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
كود المصدر :
tfds.text.c4_wsrs.C4WSRS
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التحميل :
143.01 KiB
حجم مجموعة البيانات :
5.84 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 9،575،852 |
'validation' | 991422 |
- هيكل الميزة :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
abbreviated_snippet | نص | سلسلة | ||
original_snippet | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :