- توضیحات :
یک مجموعه داده گسترش اختصار پزشکی که جایگزینی معکوس در مقیاس وب (wsrs) را برای مجموعه داده C4 اعمال می کند، که یک نسخه عظیم و پاک شده از پیکره خزیدن وب Common Crawl است.
منبع اصلی مجموعه داده Common Crawl است: https://commoncrawl.org
توضیحات پیکربندی : مجموعه داده پیش فرض C4-WSRS.
صفحه اصلی : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
کد منبع :
tfds.text.c4_wsrs.C4WSRS
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
حجم دانلود :
143.01 KiB
حجم مجموعه داده :
5.84 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 9,575,852 |
'validation' | 991,422 |
- ساختار ویژگی :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
abbreviated_snippet | متن | رشته | ||
قطعه_اصلی | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :