Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

user_libri_text

Descrição :

UserLibri é um conjunto de dados contendo transcrições de áudio emparelhadas e dados adicionais apenas de texto para cada um dos 107 usuários. É uma reformatação do conjunto de dados LibriSpeech encontrado em http://www.openslr.org/12, reorganizando os dados em usuários com uma média de 52 expressões LibriSpeech e cerca de 6.700 frases de exemplo de texto por usuário. A classe UserLibriAudio fornece acesso aos pares de transcrição de áudio. Veja UserLibriText para os dados de texto adicionais.

Página inicial : https://www.kaggle.com/datasets/google/userlibri
Código -fonte: tfds.text.userlibri_lm_data.UserLibriText
Versões :
- 1.0.0 (padrão): sem notas de versão.
Tamanho do download : Unknown size
Tamanho do conjunto de dados : 86.86 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'10136'`	38.496
`'1041'`	970
`'10540'`	3.283
`'108'`	5.864
`'11'`	1.348
`'11667'`	3.312
`'1184'`	22.062
`'12176'`	1.467
`'12434'`	2.796
`'12544'`	4.080
`'13110'`	2.634
`'13158'`	3.440
`'13441'`	4.145
`'135'`	37.263
`'1353'`	4.889
`'1399'`	18.914
`'14420'`	6.950
`'14566'`	3.810
`'1477'`	2.526
`'14958'`	1.495
`'15263'`	21.085
`'15265'`	7.647
`'1549'`	5.439
`'1572'`	2.882
`'1597'`	3.586
`'1608'`	3.605
`'16127'`	3.588
`'16653'`	7.600
`'18096'`	2.384
`'1827'`	4.806
`'19019'`	3.248
`'19215'`	13.542
`'19717'`	3.762
`'1989'`	1.105
`'1998'`	8.923
`'20019'`	966
`'2002'`	239
`'20212'`	3.363
`'209'`	2.090
`'21297'`	4.165
`'22002'`	4.044
`'2300'`	22.201
`'24'`	3.537
`'24585'`	1.789
`'24811'`	2.399
`'2488'`	8.239
`'2529'`	3.934
`'26177'`	3.598
`'26379'`	379
`'2681'`	8.872
`'27067'`	3.149
`'27090'`	3.217
`'2770'`	3.750
`'2787'`	4.603
`'28700'`	5.547
`'28725'`	3.899
`'28952'`	2.909
`'2981'`	54.305
`'3076'`	7.124
`'30905'`	2.140
`'3178'`	8.454
`'33'`	3.569
`'33800'`	5.145
`'3436'`	5.899
`'3440'`	5.087
`'3441'`	6.042
`'36508'`	521
`'3748'`	4.767
`'38675'`	2.696
`'38804'`	5.653
`'39159'`	2.729
`'4028'`	9.633
`'40359'`	7.821
`'41326'`	6.181
`'4217'`	6.003
`'4276'`	10.461
`'434'`	4.319
`'4602'`	4.421
`'507'`	9.093
`'540'`	5.452
`'5516'`	4.963
`'5630'`	1.130
`'574'`	452
`'5921'`	6.040
`'6328'`	5.926
`'6812'`	5.839
`'732'`	22.971
`'76'`	6.454
`'7891'`	1.476
`'8166'`	3.190
`'820'`	11.054
`'833'`	3.638
`'9189'`	8.387
`'94'`	1.722
`'940'`	6.172
`'9464'`	1.695
`'955'`	3.051
`'969'`	7.799
`'9983'`	8.898

Estrutura de recursos :

FeaturesDict({
    'book_id': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

Documentação do recurso:

Característica	Classe	Tipo D	Descrição
	RecursosDict
livro_id	Texto	corda	O livro de onde este texto foi retirado
texto	Texto	corda	Uma frase de texto extraída de um livro

Chaves supervisionadas (Consulte as_supervised doc ): ('text', 'text')
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):

Citação :

@inproceedings{breiner2022userlibri,
  title={UserLibri: A Dataset for ASR Personalization Using Only Text},
  author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
  booktitle={Proc. Interspeech 2022},
  year={2022}
}

user_libri_text Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

user_libri_text