Riferimenti:
Utilizzare il comando seguente per caricare questo set di dati in TFDS:
ds = tfds.load('huggingface:makhzan')
- Descrizione :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
- Licenza : tutti i file nella directory /text sono coperti da copyright standard. Ogni porzione di testo è stata inclusa in questo repository con il permesso esplicito dei rispettivi detentori dei diritti d'autore, identificati nel file tag per ciascun file. Sei libero di utilizzare questo testo per analisi, ricerca e sviluppo, ma non ti è consentito ridistribuire o ripubblicare questo testo. Di seguito vengono presentati alcuni casi in cui ai file nella directory /text potrebbe essere applicata una licenza meno restrittiva. In alcuni casi il testo libero da copyright è stato riprodotto digitalmente grazie al duro lavoro dei nostri collaboratori. In questi casi, ove possibile, abbiamo accreditato le persone appropriate in un campo note nei metadati del file e ti invitiamo vivamente a contattarle prima di ridistribuire questo testo in qualsiasi forma. Laddove insieme al testo viene fornita una licenza separata, abbiamo fornito i dati corrispondenti nel campo pubblicazione nei metadati di un file.
- Versione : 1.0.0
- Divide :
Diviso | Esempi |
---|---|
'train' | 5522 |
- Caratteristiche :
{
"file_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"metadata": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"num-words": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"contains-non-urdu-languages": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"document_body": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}