makhzan

Referências:

Use o seguinte comando para carregar este conjunto de dados no TFDS:

ds = tfds.load('huggingface:makhzan')

Descrição :

An Urdu text corpus for machine learning, natural language processing and linguistic analysis.

Licença : Todos os arquivos no diretório /text são protegidos por direitos autorais padrão. Cada trecho de texto foi incluído neste repositório com permissão explícita dos respectivos detentores dos direitos autorais, que estão identificados no tag para cada arquivo. Você é livre para usar este texto para análise, pesquisa e desenvolvimento, mas não tem permissão para redistribuí-lo ou republicá-lo. Alguns casos em que uma licença menos restritiva poderia ser aplicada a arquivos no diretório /text são apresentados abaixo. Em alguns casos, textos livres de direitos autorais foram reproduzidos digitalmente através do trabalho árduo de nossos colaboradores. Nesses casos, creditamos as pessoas apropriadas, sempre que possível, em um campo de notas nos metadados do arquivo, e recomendamos fortemente que você entre em contato com elas antes de redistribuir este texto em qualquer formato. Quando uma licença separada é fornecida junto com o texto, fornecemos os dados correspondentes no campo de publicação nos metadados de um arquivo.
Versão : 1.0.0
Divisões :

Dividir	Exemplos
`'train'`	5522

Características :

{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}