マクザン

参考文献:

次のコマンドを使用して、このデータセットを TFDS にロードします。

ds = tfds.load('huggingface:makhzan')

説明：

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

ライセンス: /text ディレクトリ内のすべてのファイルは、標準の著作権で保護されています。テキストの各部分は、それぞれの著作権所有者の明示的な許可を得てこのリポジトリに含まれています。各ファイルのタグ。このテキストを分析、研究、開発のために自由に使用することはできますが、このテキストを再配布または再発行することはできません。 /text ディレクトリ内のファイルに制限の緩いライセンスが適用されるいくつかのケースを以下に示します。場合によっては、著作権フリーのテキストが、協力者の懸命の努力によってデジタル的に複製されています。このような場合、ファイルのメタデータのメモフィールドに可能な限り適切な人物のクレジットを記載しています。このテキストを何らかの形式で再配布する前に、その人物に連絡することを強くお勧めします。テキストとともに別のライセンスが提供される場合、ファイルのメタデータの出版物フィールドに対応するデータが提供されます。
バージョン: 1.0.0
分割:

スプリット	例
`'train'`	5522

特徴：

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}