voz_común

  • Descripción :

Conjunto de datos de voz común de Mozilla

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio does not match text),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio matches the text),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción
FuncionesDict
acento Texto cadena Acento del hablante, consulte https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
edad Texto cadena Grupo de edad del hablante (por ejemplo, adolescentes o cuarenta años), consulte https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
id_cliente Texto cadena UUID hash de un usuario determinado
votos negativos Escalar int32 Número de personas que dijeron que el audio no coincide con el texto
género Etiqueta de clase int64 Género del hablante
segmento Texto cadena Si la oración pertenece a un segmento de conjunto de datos personalizado, aparecerá aquí
oración Texto cadena Supuesta transcripción del audio.
votos positivos Escalar int32 Número de personas que dijeron que el audio coincide con el texto
voz Audio (Ninguno,) int64

common_voice/en (configuración predeterminada)

  • Descripción de la configuración : Código de idioma: en

  • Tamaño de descarga : 56.45 GiB

  • Tamaño del conjunto de datos : 2.79 TiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 16.164
'test' 16.164
'train' 564,337
'validation' 1.224.864

voz_común/ab

  • Descripción de la configuración : Código de idioma: ab

  • Tamaño de descarga : 39.14 MiB

  • Tamaño del conjunto de datos : 133.24 MiB

  • Almacenamiento en caché automático ( documentación ): Sí

  • Divisiones :

Dividir Ejemplos
'test' 9
'train' 22
'validation' 31

voz_común/ar

  • Descripción de la configuración : Código de idioma: ar

  • Tamaño de descarga : 1.64 GiB

  • Tamaño del conjunto de datos : 67.16 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 7.517
'test' 7.622
'train' 14.227
'validation' 43.291

voz_común/as

  • Descripción de la configuración : Código de idioma: como

  • Tamaño de descarga : 21.20 MiB

  • Tamaño del conjunto de datos : 1.65 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 124
'test' 110
'train' 270
'validation' 504

voz_común/br

  • Descripción de la configuración : Código de idioma: br

  • Tamaño de descarga : 443.72 MiB

  • Tamaño del conjunto de datos : 13.46 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 1.997
'test' 2.087
'train' 2.780
'validation' 8.560

voz_común/ca

  • Descripción de la configuración : Código de idioma: ca

  • Tamaño de descarga : 19.32 GiB

  • Tamaño del conjunto de datos : 1.19 TiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 15.724
'test' 15.724
'train' 285.584
'validation' 416.701

voz_común/cnh

  • Descripción de la configuración : Código de idioma: cnh

  • Tamaño de descarga : 153.86 MiB

  • Tamaño del conjunto de datos : 5.12 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 756
'test' 752
'train' 807
'validation' 2,432

voz_común/cs

  • Descripción de la configuración : Código de idioma: cs

  • Tamaño de descarga : 1.18 GiB

  • Tamaño del conjunto de datos : 56.89 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 4,118
'test' 4,144
'train' 5.655
'validation' 30.431

voz_común/cv

  • Descripción de la configuración : Código de idioma: cv

  • Tamaño de descarga : 418.98 MiB

  • Tamaño del conjunto de datos : 8.10 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 818
'test' 788
'train' 931
'validation' 3.496

voz_común/cy

  • Descripción de la configuración : Código de idioma: cy

  • Tamaño de descarga : 3.20 GiB

  • Tamaño del conjunto de datos : 128.68 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 4.776
'test' 4.820
'train' 6.839
'validation' 72.984

voz_común/de

  • Descripción de la configuración : Código de idioma: de

  • Tamaño de descarga : 21.68 GiB

  • Tamaño del conjunto de datos : 1.29 TiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 15.588
'test' 15.588
'train' 246,525
'validation' 565,186

voz_común/dv

  • Descripción de la configuración : Código de idioma: dv

  • Tamaño de descarga : 515.45 MiB

  • Tamaño del conjunto de datos : 31.59 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 2.077
'test' 2,202
'train' 2.680
'validation' 11.866

voz_común/el

  • Descripción de la configuración : Código de idioma: el

  • Tamaño de descarga : 363.89 MiB

  • Tamaño del conjunto de datos : 14.62 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 1.401
'test' 1.522
'train' 2,316
'validation' 5.996

voz_común/eo

  • Descripción de la configuración : Código de idioma: eo

  • Tamaño de descarga : 2.69 GiB

  • Tamaño del conjunto de datos : 167.14 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 8.987
'test' 8,969
'train' 19.587
'validation' 58.094

voz_común/es

  • Descripción de la configuración : Código de idioma: es

  • Tamaño de descarga : 15.08 GiB

  • Tamaño del conjunto de datos : 684.66 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 15.089
'test' 15.089
'train' 161.813
'validation' 236,314

voz_común/et

  • Descripción de la configuración : Código de idioma: et

  • Tamaño de descarga : 731.63 MiB

  • Tamaño del conjunto de datos : 37.95 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 2,507
'test' 2,509
'train' 2,966
'validation' 10.683

voz_común/ue

  • Descripción de la configuración : Código de idioma: eu

  • Tamaño de descarga : 3.41 GiB

  • Tamaño del conjunto de datos : 127.60 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 5.172
'test' 5.172
'train' 7.505
'validation' 63.009

voz_común/fa

  • Descripción de la configuración : Código de idioma: fa

  • Tamaño de descarga : 8.27 GiB

  • Tamaño del conjunto de datos : 328.61 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 5.213
'test' 5.213
'train' 7.593
'validation' 251.659

voz_común/fi

  • Descripción de la configuración : Código de idioma: fi

  • Tamaño de descarga : 47.57 MiB

  • Tamaño del conjunto de datos : 3.41 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 415
'test' 428
'train' 460
'validation' 1.305

voz_común/fr

  • Descripción de la configuración : Código de idioma: fr

  • Tamaño de descarga : 17.82 GiB

  • Tamaño del conjunto de datos : 1.17 TiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 15.763
'test' 15.763
'train' 298,982
'validation' 461.004

voz_común/fy-NL

  • Descripción de la configuración : Código de idioma: fy-NL

  • Tamaño de descarga : 1.15 GiB

  • Tamaño del conjunto de datos : 29.93 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 2.790
'test' 3.020
'train' 3.927
'validation' 10.495

voz_común/ga-IE

  • Descripción de la configuración : Código de idioma: ga-IE

  • Tamaño de descarga : 149.30 MiB

  • Tamaño del conjunto de datos : 5.11 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 497
'test' 506
'train' 541
'validation' 3.352

voz_común/hola

  • Descripción de la configuración : Código de idioma: hola

  • Tamaño de descarga : 20.43 MiB

  • Tamaño del conjunto de datos : 1.15 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 135
'test' 127
'train' 157
'validation' 419

voz_común/hsb

  • Descripción de la configuración : Código de idioma: hsb

  • Tamaño de descarga : 75.69 MiB

  • Tamaño del conjunto de datos : 5.67 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 172
'test' 387
'train' 808
'validation' 1.367

voz_común/hu

  • Descripción de la configuración : Código de idioma: hu

  • Tamaño de descarga : 231.51 MiB

  • Tamaño del conjunto de datos : 17.07 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 1.434
'test' 1.649
'train' 3.348
'validation' 6.457

voz_común/ia

  • Descripción de la configuración : Código de idioma: ia

  • Tamaño de descarga : 216.01 MiB

  • Tamaño del conjunto de datos : 14.99 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 1.601
'test' 899
'train' 3.477
'validation' 5.978

voz_común/id

  • Descripción de la configuración : Código de idioma: id

  • Tamaño de descarga : 453.87 MiB

  • Tamaño del conjunto de datos : 17.20 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 1.835
'test' 1.844
'train' 2,130
'validation' 8.696

voz_común/es

  • Descripción de la configuración : Código de idioma: it

  • Tamaño de descarga : 5.20 GiB

  • Tamaño del conjunto de datos : 316.38 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 12,928
'test' 12,928
'train' 58.015
'validation' 102.579

voz_común/ja

  • Descripción de la configuración : Código de idioma: ja

  • Tamaño de descarga : 145.80 MiB

  • Tamaño del conjunto de datos : 6.83 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 586
'test' 632
'train' 722
'validation' 3.072

voz_común/ka

  • Descripción de la configuración : Código de idioma: ka

  • Tamaño de descarga : 99.45 MiB

  • Tamaño del conjunto de datos : 7.51 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 527
'test' 656
'train' 1.058
'validation' 2,275

voz_común/kab

  • Descripción de la configuración : Código de idioma: kab

  • Tamaño de descarga : 15.99 GiB

  • Tamaño del conjunto de datos : 718.51 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 14.622
'test' 14.622
'train' 120.530
'validation' 573,718

voz_común/ky

  • Descripción de la configuración : Código de idioma: ky

  • Tamaño de descarga : 552.60 MiB

  • Tamaño del conjunto de datos : 18.70 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 1.511
'test' 1.503
'train' 1.955
'validation' 9.236

voz_común/lg

  • Descripción de la configuración : Código de idioma: lg

  • Tamaño de descarga : 198.55 MiB

  • Tamaño del conjunto de datos : 6.65 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 384
'test' 584
'train' 1.250
'validation' 2,220

voz_común/lt

  • Descripción de la configuración : Código de idioma: lt

  • Tamaño de descarga : 129.03 MiB

  • Tamaño del conjunto de datos : 4.79 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 244
'test' 466
'train' 931
'validation' 1.644

voz_común/lv

  • Descripción de la configuración : Código de idioma: lv

  • Tamaño de descarga : 198.66 MiB

  • Tamaño del conjunto de datos : 13.07 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 2.002
'test' 1.882
'train' 2.552
'validation' 6.444

voz_común/mn

  • Descripción de la configuración : Código de idioma: mn

  • Tamaño de descarga : 463.84 MiB

  • Tamaño del conjunto de datos : 22.09 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 1.837
'test' 1.862
'train' 2,183
'validation' 7.487

voz_común/mt

  • Descripción de la configuración : Código de idioma: mt

  • Tamaño de descarga : 405.42 MiB

  • Tamaño del conjunto de datos : 15.09 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 1.516
'test' 1.617
'train' 2.036
'validation' 5.747

voz_común/nl

  • Descripción de la configuración : Código de idioma: nl

  • Tamaño de descarga : 1.62 GiB

  • Tamaño del conjunto de datos : 90.20 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 4.938
'test' 5.708
'train' 9.460
'validation' 52.488

voz_común/o

  • Descripción de la configuración : Código de idioma: o

  • Tamaño de descarga : 189.85 MiB

  • Tamaño del conjunto de datos : 1.97 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 129
'test' 98
'train' 388
'validation' 615

voz_común/pa-IN

  • Descripción de la configuración : Código de idioma: pa-IN

  • Tamaño de descarga : 66.52 MiB

  • Tamaño del conjunto de datos : 1.03 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 44
'test' 116
'train' 211
'validation' 371

voz_común/pl

  • Descripción de la configuración : Código de idioma: pl

  • Tamaño de descarga : 3.29 GiB

  • Tamaño del conjunto de datos : 141.06 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 5.153
'test' 5.153
'train' 7.468
'validation' 90.791

voz_común/pt

  • Descripción de la configuración : Código de idioma: pt

  • Tamaño de descarga : 1.59 GiB

  • Tamaño del conjunto de datos : 75.64 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 4,592
'test' 4.641
'train' 6.514
'validation' 41.584

voz_común/rm-sursilv

  • Descripción de la configuración : Código de idioma: rm-sursilv

  • Tamaño de descarga : 263.17 MiB

  • Tamaño del conjunto de datos : 12.31 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 1.205
'test' 1,194
'train' 1.384
'validation' 3.783

voz_común/rm-vallader

  • Descripción de la configuración : Código de idioma: rm-vallader

  • Tamaño de descarga : 103.11 MiB

  • Tamaño del conjunto de datos : 4.89 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 357
'test' 378
'train' 574
'validation' 1.316

voz_común/ro

  • Descripción de la configuración : Código de idioma: ro

  • Tamaño de descarga : 249.84 MiB

  • Tamaño del conjunto de datos : 14.54 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 858
'test' 1.778
'train' 3,399
'validation' 6.039

voz_común/ru

  • Descripción de la configuración : Código de idioma: ru

  • Tamaño de descarga : 3.40 GiB

  • Tamaño del conjunto de datos : 175.04 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 7.963
'test' 8.007
'train' 15.481
'validation' 74.256

voz_común/rw

  • Descripción de la configuración : Código de idioma: rw

  • Tamaño de descarga : 39.62 GiB

  • Tamaño del conjunto de datos : 2.18 TiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 15.032
'test' 15.724
'train' 515,197
'validation' 832,929

voz_común/sah

  • Descripción de la configuración : Código de idioma: sah

  • Tamaño de descarga : 172.85 MiB

  • Tamaño del conjunto de datos : 9.42 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 405
'test' 757
'train' 1.442
'validation' 2.606

voz_común/sl

  • Descripción de la configuración : Código de idioma: sl

  • Tamaño de descarga : 212.43 MiB

  • Tamaño del conjunto de datos : 9.67 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 556
'test' 881
'train' 2.038
'validation' 4.669

voz_común/sv-SE

  • Descripción de la configuración : Código de idioma: sv-SE

  • Tamaño de descarga : 401.91 MiB

  • Tamaño del conjunto de datos : 18.27 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 2,019
'test' 2.027
'train' 2,331
'validation' 12.552

voz_común/ta

  • Descripción de la configuración : Código de idioma: ta

  • Tamaño de descarga : 648.28 MiB

  • Tamaño del conjunto de datos : 24.06 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 1.779
'test' 1.781
'train' 2.009
'validation' 12.652

voz_común/th

  • Descripción de la configuración : Código de idioma: th

  • Tamaño de descarga : 325.49 MiB

  • Tamaño del conjunto de datos : 18.32 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 1.922
'test' 2,188
'train' 2,917
'validation' 7.028

voz_común/tr

  • Descripción de la configuración : Código de idioma: tr

  • Tamaño de descarga : 592.09 MiB

  • Tamaño del conjunto de datos : 28.21 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 1.647
'test' 1.647
'train' 1.831
'validation' 18.685

voz_común/tt

  • Descripción de la configuración : Código de idioma: tt

  • Tamaño de descarga : 741.15 MiB

  • Tamaño del conjunto de datos : 46.85 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 2,127
'test' 4.485
'train' 11,211
'validation' 25.781

voz_común/es

  • Descripción de la configuración : Código de idioma: Reino Unido

  • Tamaño de descarga : 1.13 GiB

  • Tamaño del conjunto de datos : 49.66 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 3.236
'test' 3.235
'train' 4.035
'validation' 22,337

voz_común/vi

  • Descripción de la configuración : Código de idioma: vi

  • Tamaño de descarga : 49.52 MiB

  • Tamaño del conjunto de datos : 1.47 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 200
'test' 198
'train' 221
'validation' 619

voz_común/voto

  • Descripción de la configuración : Código de idioma: vot

  • Tamaño de descarga : 7.43 MiB

  • Tamaño del conjunto de datos : 11.39 MiB

  • Almacenamiento en caché automático ( documentación ): Sí

  • Divisiones :

Dividir Ejemplos
'train' 3
'validation' 3

voz_común/zh-CN

  • Descripción de la configuración : Código de idioma: zh-CN

  • Tamaño de descarga : 2.03 GiB

  • Tamaño del conjunto de datos : 122.54 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 8.743
'test' 8.760
'train' 18.541
'validation' 36.405

voz_común/zh-HK

  • Descripción de la configuración : Código de idioma: zh-HK

  • Tamaño de descarga : 2.58 GiB

  • Tamaño del conjunto de datos : 78.80 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 5.172
'test' 5.172
'train' 7.506
'validation' 41.835

voz_común/zh-TW

  • Descripción de la configuración : Código de idioma: zh-TW

  • Tamaño de descarga : 2.03 GiB

  • Tamaño del conjunto de datos : 69.06 GiB

  • Almacenamiento en caché automático ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'dev' 2.895
'test' 2.895
'train' 3.507
'validation' 61.232