مخزن

مراجع:

برای بارگذاری این مجموعه داده در TFDS از دستور زیر استفاده کنید:

ds = tfds.load('huggingface:makhzan')

توضیحات :

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

مجوز : همه فایل‌های موجود در فهرست /text تحت پوشش استاندارد کپی رایت قرار دارند. هر قطعه از متن با اجازه صریح صاحبان حق چاپ مربوطه در این مخزن گنجانده شده است. برای هر فایل تگ کنید شما آزاد هستید که از این متن برای تحلیل، تحقیق و توسعه استفاده کنید، اما مجاز به توزیع مجدد یا بازنشر این متن نیستید. برخی از مواردی که مجوز کمتر محدودکننده می‌تواند برای فایل‌های دایرکتوری متن اعمال شود، در زیر ارائه شده‌اند. در برخی موارد، متن بدون حق نسخه‌برداری به‌صورت دیجیتالی از طریق کار سخت همکاران ما تکثیر شده است. در چنین مواردی، ما افراد مناسب را تا حد امکان در قسمت یادداشت‌هایی در فراداده فایل ذکر کرده‌ایم و قویاً شما را تشویق می‌کنیم که قبل از توزیع مجدد این متن به هر شکلی با آنها تماس بگیرید. در جایی که مجوز جداگانه به همراه متن ارائه می شود، داده های مربوطه را در قسمت انتشار در فراداده یک فایل ارائه کرده ایم.
نسخه : 1.0.0
تقسیمات :

تقسیم کنید	نمونه ها
`'train'`	5522

ویژگی ها :

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}