- Описание :
UserLibri — это набор данных, содержащий парные аудиозаписи и дополнительные текстовые данные для каждого из 107 пользователей. Это переформатирование набора данных LibriSpeech, найденного по адресу http://www.openslr.org/12, с реорганизацией данных в пользователей со средним числом 52 высказываний LibriSpeech и примерно 6700 текстовых примеров предложений на пользователя. Класс UserLibriAudio предоставляет доступ к парам аудио-транскрипт. Дополнительные текстовые данные см. в UserLibriText.
Домашняя страница : https://www.kaggle.com/datasets/google/userlibri .
Исходный код :
tfds.text.userlibri_lm_data.UserLibriText
Версии :
-
1.0.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
Unknown size
Размер набора данных :
86.86 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'10136' | 38 496 |
'1041' | 970 |
'10540' | 3283 |
'108' | 5864 |
'11' | 1348 |
'11667' | 3312 |
'1184' | 22 062 |
'12176' | 1467 |
'12434' | 2796 |
'12544' | 4080 |
'13110' | 2634 |
'13158' | 3440 |
'13441' | 4145 |
'135' | 37 263 |
'1353' | 4889 |
'1399' | 18 914 |
'14420' | 6950 |
'14566' | 3810 |
'1477' | 2526 |
'14958' | 1495 |
'15263' | 21 085 |
'15265' | 7647 |
'1549' | 5439 |
'1572' | 2882 |
'1597' | 3586 |
'1608' | 3605 |
'16127' | 3588 |
'16653' | 7600 |
'18096' | 2384 |
'1827' | 4806 |
'19019' | 3248 |
'19215' | 13 542 |
'19717' | 3762 |
'1989' | 1105 |
'1998' | 8923 |
'20019' | 966 |
'2002' | 239 |
'20212' | 3363 |
'209' | 2090 |
'21297' | 4165 |
'22002' | 4044 |
'2300' | 22 201 |
'24' | 3537 |
'24585' | 1789 |
'24811' | 2399 |
'2488' | 8 239 |
'2529' | 3934 |
'26177' | 3598 |
'26379' | 379 |
'2681' | 8872 |
'27067' | 3149 |
'27090' | 3217 |
'2770' | 3750 |
'2787' | 4603 |
'28700' | 5 547 |
'28725' | 3899 |
'28952' | 2909 |
'2981' | 54 305 |
'3076' | 7124 |
'30905' | 2140 |
'3178' | 8 454 |
'33' | 3569 |
'33800' | 5145 |
'3436' | 5899 |
'3440' | 5087 |
'3441' | 6042 |
'36508' | 521 |
'3748' | 4767 |
'38675' | 2696 |
'38804' | 5653 |
'39159' | 2729 |
'4028' | 9633 |
'40359' | 7821 |
'41326' | 6181 |
'4217' | 6003 |
'4276' | 10 461 |
'434' | 4319 |
'4602' | 4421 |
'507' | 9093 |
'540' | 5452 |
'5516' | 4963 |
'5630' | 1130 |
'574' | 452 |
'5921' | 6040 |
'6328' | 5926 |
'6812' | 5839 |
'732' | 22 971 |
'76' | 6454 |
'7891' | 1476 |
'8166' | 3190 |
'820' | 11 054 |
'833' | 3638 |
'9189' | 8387 |
'94' | 1722 |
'940' | 6172 |
'9464' | 1695 |
'955' | 3051 |
'969' | 7799 |
'9983' | 8898 |
- Структура функции :
FeaturesDict({
'book_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
book_id | Текст | нить | Книга, из которой взят этот текст | |
текст | Текст | нить | Предложение текста, извлеченное из книги |
Контролируемые ключи (см.
as_supervised
doc ):('text', 'text')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{breiner2022userlibri,
title={UserLibri: A Dataset for ASR Personalization Using Only Text},
author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
booktitle={Proc. Interspeech 2022},
year={2022}
}