مراجع:
برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:
ds = tfds.load('huggingface:makhzan')
- توضیحات :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
- مجوز : همه فایلهای موجود در فهرست /text تحت پوشش استاندارد کپی رایت قرار دارند. هر قطعه از متن با اجازه صریح صاحبان حق چاپ مربوطه در این مخزن گنجانده شده است. برای هر فایل تگ کنید شما آزاد هستید که از این متن برای تحلیل، تحقیق و توسعه استفاده کنید، اما مجاز به توزیع مجدد یا بازنشر این متن نیستید. برخی از مواردی که مجوز کمتر محدودکننده میتواند برای فایلهای دایرکتوری متن اعمال شود، در زیر ارائه شدهاند. در برخی موارد، متن بدون حق نسخهبرداری بهصورت دیجیتالی از طریق کار سخت همکاران ما تکثیر شده است. در چنین مواردی، ما افراد مناسب را تا حد امکان در قسمت یادداشتهایی در فراداده فایل ذکر کردهایم و قویاً شما را تشویق میکنیم که قبل از توزیع مجدد این متن به هر شکلی با آنها تماس بگیرید. در جایی که مجوز جداگانه به همراه متن ارائه می شود، داده های مربوطه را در قسمت انتشار در فراداده یک فایل ارائه کرده ایم.
- نسخه : 1.0.0
- تقسیم ها :
تقسیم کنید | نمونه ها |
---|---|
'train' | 5522 |
- ویژگی ها :
{
"file_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"metadata": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"num-words": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"contains-non-urdu-languages": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"document_body": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}