user_libri_text

Описание :

UserLibri — это набор данных, содержащий парные аудиозаписи и дополнительные текстовые данные для каждого из 107 пользователей. Это переформатирование набора данных LibriSpeech, найденного по адресу http://www.openslr.org/12, с реорганизацией данных в пользователей со средним числом 52 высказываний LibriSpeech и примерно 6700 текстовых примеров предложений на пользователя. Класс UserLibriAudio предоставляет доступ к парам аудио-транскрипт. Дополнительные текстовые данные см. в UserLibriText.

Домашняя страница : https://www.kaggle.com/datasets/google/userlibri .
Исходный код : tfds.text.userlibri_lm_data.UserLibriText
Версии :
- 1.0.0 (по умолчанию): нет примечаний к выпуску.
Размер загрузки : Unknown size
Размер набора данных : 86.86 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :

Расколоть	Примеры
`'10136'`	38 496
`'1041'`	970
`'10540'`	3283
`'108'`	5864
`'11'`	1348
`'11667'`	3312
`'1184'`	22 062
`'12176'`	1467
`'12434'`	2796
`'12544'`	4080
`'13110'`	2634
`'13158'`	3440
`'13441'`	4145
`'135'`	37 263
`'1353'`	4889
`'1399'`	18 914
`'14420'`	6950
`'14566'`	3810
`'1477'`	2526
`'14958'`	1495
`'15263'`	21 085
`'15265'`	7647
`'1549'`	5439
`'1572'`	2882
`'1597'`	3586
`'1608'`	3605
`'16127'`	3588
`'16653'`	7600
`'18096'`	2384
`'1827'`	4806
`'19019'`	3248
`'19215'`	13 542
`'19717'`	3762
`'1989'`	1105
`'1998'`	8923
`'20019'`	966
`'2002'`	239
`'20212'`	3363
`'209'`	2090
`'21297'`	4165
`'22002'`	4044
`'2300'`	22 201
`'24'`	3537
`'24585'`	1789
`'24811'`	2399
`'2488'`	8 239
`'2529'`	3934
`'26177'`	3598
`'26379'`	379
`'2681'`	8872
`'27067'`	3149
`'27090'`	3217
`'2770'`	3750
`'2787'`	4603
`'28700'`	5 547
`'28725'`	3899
`'28952'`	2909
`'2981'`	54 305
`'3076'`	7124
`'30905'`	2140
`'3178'`	8 454
`'33'`	3569
`'33800'`	5145
`'3436'`	5899
`'3440'`	5087
`'3441'`	6042
`'36508'`	521
`'3748'`	4767
`'38675'`	2696
`'38804'`	5653
`'39159'`	2729
`'4028'`	9633
`'40359'`	7821
`'41326'`	6181
`'4217'`	6003
`'4276'`	10 461
`'434'`	4319
`'4602'`	4421
`'507'`	9093
`'540'`	5452
`'5516'`	4963
`'5630'`	1130
`'574'`	452
`'5921'`	6040
`'6328'`	5926
`'6812'`	5839
`'732'`	22 971
`'76'`	6454
`'7891'`	1476
`'8166'`	3190
`'820'`	11 054
`'833'`	3638
`'9189'`	8387
`'94'`	1722
`'940'`	6172
`'9464'`	1695
`'955'`	3051
`'969'`	7799
`'9983'`	8898

Структура функции :

FeaturesDict({
    'book_id': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Учебный класс	Dтип	Описание
	ОсобенностиDict
book_id	Текст	нить	Книга, из которой взят этот текст
текст	Текст	нить	Предложение текста, извлеченное из книги

Контролируемые ключи (см. as_supervised doc ): ('text', 'text')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):

Цитата :

@inproceedings{breiner2022userlibri,
  title={UserLibri: A Dataset for ASR Personalization Using Only Text},
  author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
  booktitle={Proc. Interspeech 2022},
  year={2022}
}

user_libri_text Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

user_libri_text