मख़ज़ान

सन्दर्भ:

इस डेटासेट को TFDS में लोड करने के लिए निम्नलिखित कमांड का उपयोग करें:

ds = tfds.load('huggingface:makhzan')

विवरण :

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

लाइसेंस : /text निर्देशिका की सभी फ़ाइलें मानक कॉपीराइट के अंतर्गत आती हैं। पाठ के प्रत्येक टुकड़े को संबंधित कॉपीराइट धारकों की स्पष्ट अनुमति के साथ इस भंडार में शामिल किया गया है, जिनकी पहचान इसमें की गई है प्रत्येक फ़ाइल के लिए टैग. आप विश्लेषण, अनुसंधान और विकास के लिए इस पाठ का उपयोग करने के लिए स्वतंत्र हैं, लेकिन आपको इस पाठ को पुनर्वितरित या पुनर्प्रकाशित करने की अनुमति नहीं है। कुछ मामले जहां /text निर्देशिका में फ़ाइलों पर कम प्रतिबंधात्मक लाइसेंस लागू हो सकता है, नीचे प्रस्तुत किए गए हैं। कुछ मामलों में कॉपीराइट मुक्त पाठ को हमारे सहयोगियों की कड़ी मेहनत के माध्यम से डिजिटल रूप से पुन: प्रस्तुत किया गया है। ऐसे मामलों में हमने फ़ाइल के मेटाडेटा में नोट्स फ़ील्ड में जहां संभव हो उपयुक्त लोगों को श्रेय दिया है, और हम आपको इस पाठ को किसी भी रूप में पुनर्वितरित करने से पहले उनसे संपर्क करने के लिए दृढ़ता से प्रोत्साहित करते हैं। जहां पाठ के साथ एक अलग लाइसेंस प्रदान किया जाता है, हमने फ़ाइल के मेटाडेटा में प्रकाशन क्षेत्र में संबंधित डेटा प्रदान किया है।
संस्करण : 1.0.0
विभाजन :

विभाजित करना	उदाहरण
`'train'`	5522

विशेषताएँ :

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}