- الوصف :
UserLibri هي مجموعة بيانات تحتوي على نصوص صوتية مقترنة وبيانات نصية إضافية فقط لكل مستخدم من 107 مستخدمين. وهي عبارة عن إعادة تنسيق لمجموعة بيانات LibriSpeech الموجودة على http://www.openslr.org/12 ، وإعادة تنظيم البيانات في المستخدمين بمتوسط 52 كلامًا بلغة LibriSpeech وحوالي 6700 جملة أمثلة نصية لكل مستخدم. توفر فئة UserLibriAudio الوصول إلى أزواج النسخ الصوتية. راجع UserLibriText للحصول على بيانات نصية إضافية.
الصفحة الرئيسية : https://www.kaggle.com/datasets/google/userlibri
كود المصدر :
tfds.text.userlibri_lm_data.UserLibriText
إصدارات :
-
1.0.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التنزيل :
Unknown size
حجم مجموعة البيانات :
86.86 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'10136' | 38496 |
'1041' | 970 |
'10540' | 3283 |
'108' | 5864 |
'11' | 1،348 |
'11667' | 3،312 |
'1184' | 22،062 |
'12176' | 1،467 |
'12434' | 2796 |
'12544' | 4080 |
'13110' | 2،634 |
'13158' | 3440 |
'13441' | 4145 |
'135' | 37263 |
'1353' | 4889 |
'1399' | 18،914 |
'14420' | 6950 |
'14566' | 3810 |
'1477' | 2526 |
'14958' | 1495 |
'15263' | 21،085 |
'15265' | 7647 |
'1549' | 5439 |
'1572' | 2882 |
'1597' | 3586 |
'1608' | 3،605 |
'16127' | 3588 |
'16653' | 7600 |
'18096' | 2،384 |
'1827' | 4،806 |
'19019' | 3،248 |
'19215' | 13542 |
'19717' | 3،762 |
'1989' | 1،105 |
'1998' | 8923 |
'20019' | 966 |
'2002' | 239 |
'20212' | 3،363 |
'209' | 2090 |
'21297' | 4،165 |
'22002' | 4044 |
'2300' | 22،201 |
'24' | 3537 |
'24585' | 1،789 |
'24811' | 2،399 |
'2488' | 8239 |
'2529' | 3934 |
'26177' | 3،598 |
'26379' | 379 |
'2681' | 8872 |
'27067' | 3،149 |
'27090' | 3217 |
'2770' | 3،750 |
'2787' | 4،603 |
'28700' | 5،547 |
'28725' | 3899 |
'28952' | 2909 |
'2981' | 54305 |
'3076' | 7،124 |
'30905' | 2،140 |
'3178' | 8454 |
'33' | 3569 |
'33800' | 5،145 |
'3436' | 5899 |
'3440' | 5،087 |
'3441' | 6042 |
'36508' | 521 |
'3748' | 4،767 |
'38675' | 2،696 |
'38804' | 5،653 |
'39159' | 2،729 |
'4028' | 9633 |
'40359' | 7821 |
'41326' | 6181 |
'4217' | 6،003 |
'4276' | 10461 |
'434' | 4319 |
'4602' | 4،421 |
'507' | 9093 |
'540' | 5،452 |
'5516' | 4،963 |
'5630' | 1130 |
'574' | 452 |
'5921' | 6040 |
'6328' | 5926 |
'6812' | 5839 |
'732' | 22971 |
'76' | 6،454 |
'7891' | 1،476 |
'8166' | 3،190 |
'820' | 11.054 |
'833' | 3،638 |
'9189' | 8387 |
'94' | 1،722 |
'940' | 6172 |
'9464' | 1،695 |
'955' | 3،051 |
'969' | 7799 |
'9983' | 8898 |
- هيكل الميزة :
FeaturesDict({
'book_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
معرّف_الكتب | نص | سلسلة | الكتاب الذي تم سحب هذا النص منه | |
نص | نص | سلسلة | جملة نصية مستخرجة من كتاب |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('text', 'text')
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{breiner2022userlibri,
title={UserLibri: A Dataset for ASR Personalization Using Only Text},
author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
booktitle={Proc. Interspeech 2022},
year={2022}
}