user_libri_text

Descrizione :

UserLibri è un set di dati contenente trascrizioni audio accoppiate e dati di solo testo aggiuntivi per ciascuno dei 107 utenti. Si tratta di una riformattazione del set di dati LibriSpeech trovato su http://www.openslr.org/12, riorganizzando i dati in utenti con una media di 52 espressioni LibriSpeech e circa 6.700 frasi di esempio di testo per utente. La classe UserLibriAudio fornisce l'accesso alle coppie audio-trascrizione. Vedere UserLibriText per i dati di testo aggiuntivi.

Pagina iniziale : https://www.kaggle.com/datasets/google/userlibri
Codice sorgente : tfds.text.userlibri_lm_data.UserLibriText
Versioni :
- 1.0.0 (impostazione predefinita): nessuna nota di rilascio.
Dimensioni del download : Unknown size
Dimensione del set di dati: 86.86 MiB
Auto-cache ( documentazione ): Sì
Divisioni :

Diviso	Esempi
`'10136'`	38.496
`'1041'`	970
`'10540'`	3.283
`'108'`	5.864
`'11'`	1.348
`'11667'`	3.312
`'1184'`	22.062
`'12176'`	1.467
`'12434'`	2.796
`'12544'`	4.080
`'13110'`	2.634
`'13158'`	3.440
`'13441'`	4.145
`'135'`	37.263
`'1353'`	4.889
`'1399'`	18.914
`'14420'`	6.950
`'14566'`	3.810
`'1477'`	2.526
`'14958'`	1.495
`'15263'`	21.085
`'15265'`	7.647
`'1549'`	5.439
`'1572'`	2.882
`'1597'`	3.586
`'1608'`	3.605
`'16127'`	3.588
`'16653'`	7.600
`'18096'`	2.384
`'1827'`	4.806
`'19019'`	3.248
`'19215'`	13.542
`'19717'`	3.762
`'1989'`	1.105
`'1998'`	8.923
`'20019'`	966
`'2002'`	239
`'20212'`	3.363
`'209'`	2.090
`'21297'`	4.165
`'22002'`	4.044
`'2300'`	22.201
`'24'`	3.537
`'24585'`	1.789
`'24811'`	2.399
`'2488'`	8.239
`'2529'`	3.934
`'26177'`	3.598
`'26379'`	379
`'2681'`	8.872
`'27067'`	3.149
`'27090'`	3.217
`'2770'`	3.750
`'2787'`	4.603
`'28700'`	5.547
`'28725'`	3.899
`'28952'`	2.909
`'2981'`	54.305
`'3076'`	7.124
`'30905'`	2.140
`'3178'`	8.454
`'33'`	3.569
`'33800'`	5.145
`'3436'`	5.899
`'3440'`	5.087
`'3441'`	6.042
`'36508'`	521
`'3748'`	4.767
`'38675'`	2.696
`'38804'`	5.653
`'39159'`	2.729
`'4028'`	9.633
`'40359'`	7.821
`'41326'`	6.181
`'4217'`	6.003
`'4276'`	10.461
`'434'`	4.319
`'4602'`	4.421
`'507'`	9.093
`'540'`	5.452
`'5516'`	4.963
`'5630'`	1.130
`'574'`	452
`'5921'`	6.040
`'6328'`	5.926
`'6812'`	5.839
`'732'`	22.971
`'76'`	6.454
`'7891'`	1.476
`'8166'`	3.190
`'820'`	11.054
`'833'`	3.638
`'9189'`	8.387
`'94'`	1.722
`'940'`	6.172
`'9464'`	1.695
`'955'`	3.051
`'969'`	7.799
`'9983'`	8.898

Struttura delle caratteristiche :

FeaturesDict({
    'book_id': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Tipo D	Descrizione
	CaratteristicheDict
id_libro	Testo	corda	Il libro da cui è stato tratto questo testo
testo	Testo	corda	Una frase di testo estratta da un libro

Chiavi supervisionate (vedi as_supervised doc ): ('text', 'text')
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):

Citazione :

@inproceedings{breiner2022userlibri,
  title={UserLibri: A Dataset for ASR Personalization Using Only Text},
  author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
  booktitle={Proc. Interspeech 2022},
  year={2022}
}

user_libri_text Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

user_libri_text