voce_comune

  • Descrizione :

Set di dati Mozilla Common Voice

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio does not match text),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio matches the text),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
accento Testo corda Accento dell'oratore, vedere https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
età Testo corda Età dell'oratore (ad esempio adolescenti o quarantenni), vedere https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
client_id Testo corda UUID con hash di un determinato utente
voti negativi Scalare int32 Numero di persone che hanno affermato che l'audio non corrisponde al testo
genere ClassLabel int64 Sesso dell'oratore
segmento Testo corda Se la frase appartiene a un segmento del set di dati personalizzato, verrà elencata qui
frase Testo corda Presunta trascrizione dell'audio
voti positivi Scalare int32 Numero di persone che hanno affermato che l'audio corrisponde al testo
voce Audio (Nessuno,) int64

common_voice/en (configurazione predefinita)

  • Descrizione configurazione : Codice lingua: en

  • Dimensione download : 56.45 GiB

  • Dimensioni del set di dati : 2.79 TiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 16.164
'test' 16.164
'train' 564.337
'validation' 1.224.864

voce_comune/ab

  • Descrizione configurazione : Codice lingua: ab

  • Dimensione download : 39.14 MiB

  • Dimensione del set di dati : 133.24 MiB

  • Memorizzazione nella cache automatica ( documentazione ): sì

  • Divide :

Diviso Esempi
'test' 9
'train' 22
'validation' 31

voce_comune/ar

  • Descrizione configurazione : Codice lingua: ar

  • Dimensione download : 1.64 GiB

  • Dimensione del set di dati : 67.16 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 7.517
'test' 7.622
'train' 14.227
'validation' 43.291

voce_comune/as

  • Descrizione configurazione : Codice lingua: as

  • Dimensione download : 21.20 MiB

  • Dimensioni del set di dati : 1.65 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 124
'test' 110
'train' 270
'validation' 504

voce_comune/br

  • Descrizione configurazione : Codice lingua: br

  • Dimensione download : 443.72 MiB

  • Dimensione del set di dati : 13.46 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 1.997
'test' 2.087
'train' 2.780
'validation' 8.560

voce_comune/ca

  • Descrizione configurazione : Codice lingua: ca

  • Dimensione download : 19.32 GiB

  • Dimensioni del set di dati : 1.19 TiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 15.724
'test' 15.724
'train' 285.584
'validation' 416.701

voce_comune/cnh

  • Descrizione configurazione : Codice lingua: cnh

  • Dimensione download : 153.86 MiB

  • Dimensioni del set di dati : 5.12 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 756
'test' 752
'train' 807
'validation' 2.432

voce_comune/cs

  • Descrizione configurazione : Codice lingua: cs

  • Dimensione download : 1.18 GiB

  • Dimensione del set di dati : 56.89 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 4.118
'test' 4.144
'train' 5.655
'validation' 30.431

voce_comune/cv

  • Descrizione configurazione : Codice lingua: cv

  • Dimensione download : 418.98 MiB

  • Dimensioni del set di dati : 8.10 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 818
'test' 788
'train' 931
'validation' 3.496

voce_comune/cy

  • Descrizione configurazione : Codice lingua: cy

  • Dimensione download : 3.20 GiB

  • Dimensione del set di dati : 128.68 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 4.776
'test' 4.820
'train' 6.839
'validation' 72.984

voce_comune/de

  • Descrizione configurazione : Codice lingua: de

  • Dimensione download : 21.68 GiB

  • Dimensioni del set di dati : 1.29 TiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 15.588
'test' 15.588
'train' 246.525
'validation' 565.186

voce_comune/dv

  • Descrizione configurazione : Codice lingua: dv

  • Dimensione download : 515.45 MiB

  • Dimensione del set di dati : 31.59 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 2.077
'test' 2.202
'train' 2.680
'validation' 11.866

voce_comune/el

  • Descrizione configurazione : Codice lingua: el

  • Dimensione download : 363.89 MiB

  • Dimensione del set di dati : 14.62 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 1.401
'test' 1.522
'train' 2.316
'validation' 5.996

voce_comune/eo

  • Descrizione configurazione : Codice lingua: eo

  • Dimensione download : 2.69 GiB

  • Dimensione del set di dati : 167.14 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 8.987
'test' 8.969
'train' 19.587
'validation' 58.094

voce_comune/es

  • Descrizione configurazione : Codice lingua: es

  • Dimensione download : 15.08 GiB

  • Dimensione del set di dati : 684.66 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 15.089
'test' 15.089
'train' 161.813
'validation' 236.314

voce_comune/et

  • Descrizione configurazione : Codice lingua: et

  • Dimensione download : 731.63 MiB

  • Dimensione del set di dati : 37.95 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 2.507
'test' 2.509
'train' 2.966
'validation' 10.683

common_voice/eu

  • Descrizione configurazione : Codice lingua: eu

  • Dimensione download : 3.41 GiB

  • Dimensione del set di dati : 127.60 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 5.172
'test' 5.172
'train' 7.505
'validation' 63.009

voce_comune/fa

  • Descrizione configurazione : Codice lingua: fa

  • Dimensione download : 8.27 GiB

  • Dimensione del set di dati : 328.61 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 5.213
'test' 5.213
'train' 7.593
'validation' 251.659

voce_comune/fi

  • Descrizione configurazione : Codice lingua: fi

  • Dimensione download : 47.57 MiB

  • Dimensioni del set di dati : 3.41 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 415
'test' 428
'train' 460
'validation' 1.305

voce_comune/fr

  • Descrizione configurazione : Codice lingua: fr

  • Dimensione download : 17.82 GiB

  • Dimensioni del set di dati : 1.17 TiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 15.763
'test' 15.763
'train' 298.982
'validation' 461.004

common_voice/fy-NL

  • Descrizione configurazione : Codice lingua: fy-NL

  • Dimensione download : 1.15 GiB

  • Dimensione del set di dati : 29.93 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 2.790
'test' 3.020
'train' 3.927
'validation' 10.495

common_voice/ga-IE

  • Descrizione configurazione : Codice lingua: ga-IE

  • Dimensione download : 149.30 MiB

  • Dimensioni del set di dati : 5.11 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 497
'test' 506
'train' 541
'validation' 3.352

voce_comune/ciao

  • Descrizione configurazione : Codice lingua: hi

  • Dimensione download : 20.43 MiB

  • Dimensioni del set di dati : 1.15 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 135
'test' 127
'train' 157
'validation' 419

voce_comune/hsb

  • Descrizione configurazione : Codice lingua: hsb

  • Dimensione download : 75.69 MiB

  • Dimensioni del set di dati : 5.67 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 172
'test' 387
'train' 808
'validation' 1.367

voce_comune/hu

  • Descrizione configurazione : Codice lingua: hu

  • Dimensione download : 231.51 MiB

  • Dimensione del set di dati : 17.07 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 1.434
'test' 1.649
'train' 3.348
'validation' 6.457

voce_comune/ia

  • Descrizione configurazione : Codice lingua: ia

  • Dimensione download : 216.01 MiB

  • Dimensione del set di dati : 14.99 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 1.601
'test' 899
'train' 3.477
'validation' 5.978

voce_comune/id

  • Descrizione configurazione : Codice lingua: id

  • Dimensione download : 453.87 MiB

  • Dimensione del set di dati : 17.20 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 1.835
'test' 1.844
'train' 2.130
'validation' 8.696

voce_comune/it

  • Descrizione configurazione : Codice lingua: it

  • Dimensione download : 5.20 GiB

  • Dimensione del set di dati : 316.38 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 12.928
'test' 12.928
'train' 58.015
'validation' 102.579

voce_comune/ja

  • Descrizione configurazione : Codice lingua: ja

  • Dimensione download : 145.80 MiB

  • Dimensione del set di dati : 6.83 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 586
'test' 632
'train' 722
'validation' 3.072

voce_comune/ka

  • Descrizione configurazione : Codice lingua: ka

  • Dimensione download : 99.45 MiB

  • Dimensione del set di dati : 7.51 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 527
'test' 656
'train' 1.058
'validation' 2.275

voce_comune/kab

  • Descrizione configurazione : Codice lingua: kab

  • Dimensione download : 15.99 GiB

  • Dimensione del set di dati : 718.51 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 14.622
'test' 14.622
'train' 120.530
'validation' 573.718

voce_comune/ky

  • Descrizione configurazione : Codice lingua: ky

  • Dimensione download : 552.60 MiB

  • Dimensione del set di dati : 18.70 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 1.511
'test' 1.503
'train' 1.955
'validation' 9.236

voce_comune/lg

  • Descrizione configurazione : Codice lingua: lg

  • Dimensione download : 198.55 MiB

  • Dimensioni del set di dati : 6.65 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 384
'test' 584
'train' 1.250
'validation' 2.220

voce_comune/lt

  • Descrizione configurazione : Codice lingua: lt

  • Dimensione download : 129.03 MiB

  • Dimensioni del set di dati : 4.79 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 244
'test' 466
'train' 931
'validation' 1.644

voce_comune/lv

  • Descrizione configurazione : Codice lingua: lv

  • Dimensione download : 198.66 MiB

  • Dimensione del set di dati : 13.07 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 2.002
'test' 1.882
'train' 2.552
'validation' 6.444

voce_comune/mn

  • Descrizione configurazione : Codice lingua: mn

  • Dimensione download : 463.84 MiB

  • Dimensione del set di dati : 22.09 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 1.837
'test' 1.862
'train' 2.183
'validation' 7.487

voce_comune/mt

  • Descrizione configurazione : Codice lingua: mt

  • Dimensione download : 405.42 MiB

  • Dimensione del set di dati : 15.09 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 1.516
'test' 1.617
'train' 2.036
'validation' 5.747

voce_comune/nl

  • Descrizione configurazione : Codice lingua: nl

  • Dimensione download : 1.62 GiB

  • Dimensione del set di dati : 90.20 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 4.938
'test' 5.708
'train' 9.460
'validation' 52.488

voce_comune/o

  • Descrizione configurazione : Codice lingua: o

  • Dimensione download : 189.85 MiB

  • Dimensione del set di dati : 1.97 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 129
'test' 98
'train' 388
'validation' 615

voce_comune/pa-IN

  • Descrizione configurazione : Codice lingua: pa-IN

  • Dimensione download : 66.52 MiB

  • Dimensione del set di dati : 1.03 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 44
'test' 116
'train' 211
'validation' 371

voce_comune/pl

  • Descrizione configurazione : Codice lingua: pl

  • Dimensione download : 3.29 GiB

  • Dimensione del set di dati : 141.06 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 5.153
'test' 5.153
'train' 7.468
'validation' 90.791

voce_comune/pt

  • Descrizione configurazione : Codice lingua: pt

  • Dimensione download : 1.59 GiB

  • Dimensione del set di dati : 75.64 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 4.592
'test' 4.641
'train' 6.514
'validation' 41.584

common_voice/rm-sursilv

  • Descrizione configurazione : Codice lingua: rm-sursilv

  • Dimensione download : 263.17 MiB

  • Dimensione del set di dati : 12.31 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 1.205
'test' 1.194
'train' 1.384
'validation' 3.783

common_voice/rm-vallader

  • Descrizione configurazione : Codice lingua: rm-vallader

  • Dimensione download : 103.11 MiB

  • Dimensione del set di dati : 4.89 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 357
'test' 378
'train' 574
'validation' 1.316

voce_comune/ro

  • Descrizione configurazione : Codice lingua: ro

  • Dimensione download : 249.84 MiB

  • Dimensione del set di dati : 14.54 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 858
'test' 1.778
'train' 3.399
'validation' 6.039

common_voice/ru

  • Descrizione configurazione : Codice lingua: ru

  • Dimensione download : 3.40 GiB

  • Dimensione del set di dati : 175.04 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 7.963
'test' 8.007
'train' 15.481
'validation' 74.256

voce_comune/rw

  • Descrizione configurazione : Codice lingua: rw

  • Dimensione download : 39.62 GiB

  • Dimensioni del set di dati : 2.18 TiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 15.032
'test' 15.724
'train' 515.197
'validation' 832.929

voce_comune/sah

  • Descrizione configurazione : Codice lingua: sah

  • Dimensione download : 172.85 MiB

  • Dimensione del set di dati : 9.42 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 405
'test' 757
'train' 1.442
'validation' 2.606

voce_comune/sl

  • Descrizione configurazione : Codice lingua: sl

  • Dimensione download : 212.43 MiB

  • Dimensione del set di dati : 9.67 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 556
'test' 881
'train' 2.038
'validation' 4.669

common_voice/sv-SE

  • Descrizione configurazione : Codice lingua: sv-SE

  • Dimensione download : 401.91 MiB

  • Dimensione del set di dati : 18.27 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 2.019
'test' 2.027
'train' 2.331
'validation' 12.552

voce_comune/ta

  • Descrizione configurazione : Codice lingua: ta

  • Dimensione download : 648.28 MiB

  • Dimensione del set di dati : 24.06 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 1.779
'test' 1.781
'train' 2.009
'validation' 12.652

voce_comune/th

  • Descrizione configurazione : Codice lingua: th

  • Dimensione download : 325.49 MiB

  • Dimensione del set di dati : 18.32 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 1.922
'test' 2.188
'train' 2.917
'validation' 7.028

voce_comune/tr

  • Descrizione configurazione : Codice lingua: tr

  • Dimensione download : 592.09 MiB

  • Dimensione del set di dati : 28.21 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 1.647
'test' 1.647
'train' 1.831
'validation' 18.685

voce_comune/tt

  • Descrizione configurazione : Codice lingua: tt

  • Dimensione download : 741.15 MiB

  • Dimensione del set di dati : 46.85 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 2.127
'test' 4.485
'train' 11.211
'validation' 25.781

common_voice/uk

  • Descrizione configurazione : Codice lingua: uk

  • Dimensione download : 1.13 GiB

  • Dimensione del set di dati : 49.66 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 3.236
'test' 3.235
'train' 4.035
'validation' 22.337

voce_comune/vi

  • Descrizione configurazione : Codice lingua: vi

  • Dimensione download : 49.52 MiB

  • Dimensione del set di dati : 1.47 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 200
'test' 198
'train' 221
'validation' 619

voce_comune/vot

  • Descrizione configurazione : Codice lingua: vot

  • Dimensione download : 7.43 MiB

  • Dimensione del set di dati : 11.39 MiB

  • Memorizzazione nella cache automatica ( documentazione ): sì

  • Divide :

Diviso Esempi
'train' 3
'validation' 3

voce_comune/zh-CN

  • Descrizione configurazione : Codice lingua: zh-CN

  • Dimensione download : 2.03 GiB

  • Dimensione del set di dati : 122.54 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 8.743
'test' 8.760
'train' 18.541
'validation' 36.405

voce_comune/zh-HK

  • Descrizione configurazione : Codice lingua: zh-HK

  • Dimensione download : 2.58 GiB

  • Dimensione del set di dati : 78.80 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 5.172
'test' 5.172
'train' 7.506
'validation' 41.835

voce_comune/zh-TW

  • Descrizione configurazione : Codice lingua: zh-TW

  • Dimensione download : 2.03 GiB

  • Dimensione del set di dati : 69.06 GiB

  • Memorizzazione nella cache automatica ( documentazione ): No

  • Divide :

Diviso Esempi
'dev' 2.895
'test' 2.895
'train' 3.507
'validation' 61.232