Referencias:
Utilice el siguiente comando para cargar este conjunto de datos en TFDS:
ds = tfds.load('huggingface:makhzan')
- Descripción :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
- Licencia : todos los archivos del directorio /text están protegidos por derechos de autor estándar. Cada fragmento de texto se ha incluido en este repositorio con el permiso explícito de los respectivos titulares de los derechos de autor, que se identifican en el etiqueta para cada archivo. Usted es libre de utilizar este texto para análisis, investigación y desarrollo, pero no puede redistribuirlo ni volver a publicarlo. A continuación se presentan algunos casos en los que se podría aplicar una licencia menos restrictiva a archivos en el directorio /text. En algunos casos, el texto libre de derechos de autor ha sido reproducido digitalmente gracias al arduo trabajo de nuestros colaboradores. En tales casos, hemos acreditado a las personas apropiadas en la medida de lo posible en un campo de notas en los metadatos del archivo, y le recomendamos encarecidamente que se comunique con ellos antes de redistribuir este texto de cualquier forma. Cuando se proporciona una licencia por separado junto con el texto, hemos proporcionado los datos correspondientes en el campo de publicación en los metadatos de un archivo.
- Versión : 1.0.0
- Divisiones :
Separar | Ejemplos |
---|---|
'train' | 5522 |
- Características :
{
"file_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"metadata": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"num-words": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"contains-non-urdu-languages": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"document_body": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}