majzan

Referencias:

Utilice el siguiente comando para cargar este conjunto de datos en TFDS:

ds = tfds.load('huggingface:makhzan')
  • Descripción :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
  • Licencia : todos los archivos en el directorio /text están cubiertos por derechos de autor estándar. Cada fragmento de texto se ha incluido en este repositorio con el permiso explícito de los respectivos titulares de derechos de autor, quienes se identifican en el etiqueta para cada archivo. Usted es libre de utilizar este texto para análisis, investigación y desarrollo, pero no puede redistribuirlo ni volver a publicarlo. A continuación se presentan algunos casos en los que se podría aplicar una licencia menos restrictiva a los archivos en el directorio /text. En algunos casos, se ha reproducido digitalmente texto libre de derechos de autor gracias al arduo trabajo de nuestros colaboradores. En tales casos, hemos acreditado a las personas adecuadas, siempre que sea posible, en un campo de notas en los metadatos del archivo, y le recomendamos encarecidamente que se comunique con ellas antes de redistribuir este texto de cualquier forma. Cuando se proporciona una licencia separada junto con el texto, proporcionamos los datos correspondientes en el campo de publicación en los metadatos de un archivo.
  • Versión : 1.0.0
  • Divisiones :
Dividir Ejemplos
'train' 5522
  • Características :
{
    "file_id": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "metadata": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "title": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "num-words": {
        "dtype": "int64",
        "id": null,
        "_type": "Value"
    },
    "contains-non-urdu-languages": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "document_body": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}