Ссылки:
Используйте следующую команду, чтобы загрузить этот набор данных в TFDS:
ds = tfds.load('huggingface:makhzan')
- Описание :
An Urdu text corpus for machine learning, natural language processing and linguistic analysis.
- Лицензия : Все файлы в каталоге /text защищены стандартным авторским правом. Каждый фрагмент текста был включен в этот репозиторий с явного разрешения соответствующих правообладателей, которые указаны в тег для каждого файла. Вы можете использовать этот текст для анализа, исследований и разработок, но вам не разрешается распространять или переиздавать этот текст. Ниже представлены некоторые случаи, когда к файлам в каталоге /text может применяться менее строгая лицензия. В некоторых случаях текст, не защищенный авторским правом, был воспроизведен в цифровом виде благодаря упорному труду наших сотрудников. В таких случаях мы по возможности указали соответствующих людей в поле примечаний метаданных файла и настоятельно рекомендуем вам связаться с ними, прежде чем распространять этот текст в любой форме. Если вместе с текстом предоставляется отдельная лицензия, мы предоставили соответствующие данные в поле публикации в метаданных файла.
- Версия : 1.0.0
- Расколы :
Расколоть | Примеры |
---|---|
'train' | 5522 |
- Функции :
{
"file_id": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"metadata": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"title": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"num-words": {
"dtype": "int64",
"id": null,
"_type": "Value"
},
"contains-non-urdu-languages": {
"dtype": "string",
"id": null,
"_type": "Value"
},
"document_body": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}