makhzan

Referensi:

Gunakan perintah berikut untuk memuat kumpulan data ini di TFDS:

ds = tfds.load('huggingface:makhzan')

Keterangan :

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

Lisensi : Semua file di direktori /text dilindungi hak cipta standar. Setiap bagian teks telah disertakan dalam repositori ini dengan izin eksplisit dari masing-masing pemegang hak cipta, yang diidentifikasi dalam tag untuk setiap file. Anda bebas menggunakan teks ini untuk analisis, penelitian dan pengembangan, namun Anda tidak diperbolehkan untuk mendistribusikan ulang atau menerbitkan ulang teks ini. Beberapa kasus di mana lisensi yang tidak terlalu ketat dapat diterapkan pada file di direktori /text disajikan di bawah ini. Dalam beberapa kasus, teks bebas hak cipta telah direproduksi secara digital melalui kerja keras kolaborator kami. Dalam kasus seperti ini, kami telah memberi kredit kepada orang-orang yang tepat jika memungkinkan dalam kolom catatan di metadata file, dan kami sangat menganjurkan Anda untuk menghubungi mereka sebelum mendistribusikan ulang teks ini dalam bentuk apa pun. Jika lisensi terpisah diberikan bersama dengan teksnya, kami telah menyediakan data terkait di bidang publikasi dalam metadata file.
Versi : 1.0.0
Perpecahan :

Membelah	Contoh
`'train'`	5522

Fitur :

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}