মাখজান

তথ্যসূত্র:

TFDS এ এই ডেটাসেট লোড করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:

ds = tfds.load('huggingface:makhzan')

বর্ণনা :

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

লাইসেন্স : /টেক্সট ডিরেক্টরির সমস্ত ফাইল স্ট্যান্ডার্ড কপিরাইটের আওতায় রয়েছে। পাঠ্যের প্রতিটি অংশ এই সংগ্রহস্থলে সংশ্লিষ্ট কপিরাইট ধারকদের স্পষ্ট অনুমতি সহ অন্তর্ভুক্ত করা হয়েছে, যারা প্রতিটি ফাইলের জন্য ট্যাগ। আপনি বিশ্লেষণ, গবেষণা এবং উন্নয়নের জন্য এই পাঠ্যটি ব্যবহার করার জন্য স্বাধীন, তবে আপনাকে এই পাঠ্যটি পুনরায় বিতরণ বা পুনঃপ্রকাশ করার অনুমতি নেই। কিছু ক্ষেত্রে যেখানে একটি কম সীমাবদ্ধ লাইসেন্স /text ডিরেক্টরির ফাইলগুলিতে প্রযোজ্য হতে পারে নীচে উপস্থাপন করা হয়েছে। কিছু ক্ষেত্রে আমাদের সহযোগীদের কঠোর পরিশ্রমের মাধ্যমে কপিরাইট মুক্ত পাঠ্য ডিজিটালভাবে পুনরুত্পাদন করা হয়েছে। এই ধরনের ক্ষেত্রে আমরা ফাইলের মেটাডেটাতে একটি নোট ক্ষেত্রে যথাসম্ভব উপযুক্ত ব্যক্তিদের কৃতিত্ব দিয়েছি, এবং আমরা দৃঢ়ভাবে আপনাকে উত্সাহিত করি যে কোনো আকারে এই পাঠ্যটি পুনরায় বিতরণ করার আগে তাদের সাথে যোগাযোগ করুন। যেখানে পাঠ্যের সাথে একটি পৃথক লাইসেন্স প্রদান করা হয়, আমরা একটি ফাইলের মেটাডেটাতে প্রকাশনার ক্ষেত্রে সংশ্লিষ্ট ডেটা প্রদান করেছি।
সংস্করণ : 1.0.0
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	5522

বৈশিষ্ট্য :

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}