wspólny_głos

  • Opis :

Zbiór danych Mozilla Common Voice

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio does not match text),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio matches the text),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDykt
akcent Tekst smyczkowy Akcent mówiącego, patrz https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
wiek Tekst smyczkowy Wiek mówcy (np. nastolatki lub czterdziestka), patrz https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
identyfikator_klienta Tekst smyczkowy Zaszyfrowany identyfikator UUID danego użytkownika
głosów przeciwnych Skalarny int32 Liczba osób, które stwierdziły, że dźwięk nie pasuje do tekstu
płeć Etykieta klasy int64 Płeć mówiącego
segment Tekst smyczkowy Jeśli zdanie należy do niestandardowego segmentu zbioru danych, zostanie tutaj wyświetlone
zdanie Tekst smyczkowy Zakładana transkrypcja dźwięku
głosy za Skalarny int32 Liczba osób, które stwierdziły, że dźwięk pasuje do tekstu
głos Audio (Nic,) int64

common_voice/en (konfiguracja domyślna)

  • Opis konfiguracji : Kod języka: en

  • Rozmiar pobierania : 56.45 GiB

  • Rozmiar zbioru danych : 2.79 TiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 16164
'test' 16164
'train' 564,337
'validation' 1224864

wspólny_głos/ab

  • Opis konfiguracji : Kod języka: ab

  • Rozmiar pobierania : 39.14 MiB

  • Rozmiar zbioru danych : 133.24 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Podział Przykłady
'test' 9
'train' 22
'validation' 31

wspólny_głos/ar

  • Opis konfiguracji : Kod języka: ar

  • Rozmiar pobierania : 1.64 GiB

  • Rozmiar zbioru danych : 67.16 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 7517
'test' 7622
'train' 14227
'validation' 43291

wspólny_głos/as

  • Opis konfiguracji : Kod języka: as

  • Rozmiar pobierania : 21.20 MiB

  • Rozmiar zbioru danych : 1.65 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 124
'test' 110
'train' 270
'validation' 504

wspólny_głos/br

  • Opis konfiguracji : Kod języka: br

  • Rozmiar pobierania : 443.72 MiB

  • Rozmiar zbioru danych : 13.46 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 1997
'test' 2087
'train' 2780
'validation' 8560

wspólny_głos/ca

  • Opis konfiguracji : Kod języka: ok

  • Rozmiar pobierania : 19.32 GiB

  • Rozmiar zbioru danych : 1.19 TiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 15724
'test' 15724
'train' 285584
'validation' 416701

wspólny_głos/cnh

  • Opis konfiguracji : Kod języka: cnh

  • Rozmiar pobierania : 153.86 MiB

  • Rozmiar zbioru danych : 5.12 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 756
'test' 752
'train' 807
'validation' 2432

wspólny_głos/cs

  • Opis konfiguracji : Kod języka: cs

  • Rozmiar pobierania : 1.18 GiB

  • Rozmiar zbioru danych : 56.89 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 4118
'test' 4144
'train' 5655
'validation' 30 431

wspólny_głos/cv

  • Opis konfiguracji : Kod języka: cv

  • Rozmiar pobierania : 418.98 MiB

  • Rozmiar zbioru danych : 8.10 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 818
'test' 788
'train' 931
'validation' 3496

wspólny_głos/cy

  • Opis konfiguracji : Kod języka: cy

  • Rozmiar pliku do pobrania : 3.20 GiB

  • Rozmiar zbioru danych : 128.68 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 4776
'test' 4820
'train' 6839
'validation' 72 984

wspólny_głos/de

  • Opis konfiguracji : Kod języka: de

  • Rozmiar pobierania : 21.68 GiB

  • Rozmiar zbioru danych : 1.29 TiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 15588
'test' 15588
'train' 246525
'validation' 565.186

wspólny_głos/dv

  • Opis konfiguracji : Kod języka: dv

  • Rozmiar pobierania : 515.45 MiB

  • Rozmiar zbioru danych : 31.59 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 2077
'test' 2202
'train' 2680
'validation' 11866

wspólny_głos/el

  • Opis konfiguracji : Kod języka: el

  • Rozmiar pobierania : 363.89 MiB

  • Rozmiar zbioru danych : 14.62 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 1401
'test' 1522
'train' 2316
'validation' 5996

wspólny_głos/eo

  • Opis konfiguracji : Kod języka: eo

  • Rozmiar pobierania : 2.69 GiB

  • Rozmiar zbioru danych : 167.14 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 8987
'test' 8969
'train' 19587
'validation' 58094

wspólny_głos/es

  • Opis konfiguracji : Kod języka: es

  • Rozmiar pobierania : 15.08 GiB

  • Rozmiar zbioru danych : 684.66 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 15089
'test' 15089
'train' 161813
'validation' 236.314

common_voice/et

  • Opis konfiguracji : Kod języka: et

  • Rozmiar pobierania : 731.63 MiB

  • Rozmiar zbioru danych : 37.95 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 2507
'test' 2509
'train' 2966
'validation' 10683

common_voice/eu

  • Opis konfiguracji : Kod języka: eu

  • Rozmiar pobierania : 3.41 GiB

  • Rozmiar zbioru danych : 127.60 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 5172
'test' 5172
'train' 7505
'validation' 63 009

wspólny_głos/fa

  • Opis konfiguracji : Kod języka: fa

  • Rozmiar pobierania : 8.27 GiB

  • Rozmiar zbioru danych : 328.61 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 5213
'test' 5213
'train' 7593
'validation' 251 659

wspólny_głos/fi

  • Opis konfiguracji : Kod języka: fi

  • Rozmiar pobierania : 47.57 MiB

  • Rozmiar zbioru danych : 3.41 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 415
'test' 428
'train' 460
'validation' 1305

wspólny_głos/fr

  • Opis konfiguracji : Kod języka: fr

  • Rozmiar pobierania : 17.82 GiB

  • Rozmiar zbioru danych : 1.17 TiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 15763
'test' 15763
'train' 298 982
'validation' 461 004

common_voice/fy-NL

  • Opis konfiguracji : Kod języka: fy-NL

  • Rozmiar pliku do pobrania : 1.15 GiB

  • Rozmiar zbioru danych : 29.93 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 2790
'test' 3020
'train' 3927
'validation' 10 495

common_voice/ga-IE

  • Opis konfiguracji : Kod języka: ga-IE

  • Rozmiar pobierania : 149.30 MiB

  • Rozmiar zbioru danych : 5.11 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 497
'test' 506
'train' 541
'validation' 3352

common_voice/cześć

  • Opis konfiguracji : Kod języka: cześć

  • Rozmiar pobierania : 20.43 MiB

  • Rozmiar zbioru danych : 1.15 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 135
'test' 127
'train' 157
'validation' 419

wspólny_głos/hsb

  • Opis konfiguracji : Kod języka: hsb

  • Rozmiar pobierania : 75.69 MiB

  • Rozmiar zbioru danych : 5.67 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 172
'test' 387
'train' 808
'validation' 1367

wspólny_głos/hu

  • Opis konfiguracji : Kod języka: hu

  • Rozmiar pobierania : 231.51 MiB

  • Rozmiar zbioru danych : 17.07 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 1434
'test' 1649
'train' 3348
'validation' 6457

wspólny_głos/ia

  • Opis konfiguracji : Kod języka: m.in

  • Rozmiar pobierania : 216.01 MiB

  • Rozmiar zbioru danych : 14.99 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 1601
'test' 899
'train' 3477
'validation' 5978

wspólny_głos/id

  • Opis konfiguracji : Kod języka: id

  • Rozmiar pobierania : 453.87 MiB

  • Rozmiar zbioru danych : 17.20 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 1835
'test' 1844
'train' 2130
'validation' 8696

common_voice/it

  • Opis konfiguracji : Kod języka: it

  • Rozmiar pobierania : 5.20 GiB

  • Rozmiar zbioru danych : 316.38 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 12928
'test' 12928
'train' 58015
'validation' 102579

wspólny_głos/ja

  • Opis konfiguracji : Kod języka: ja

  • Rozmiar pobierania : 145.80 MiB

  • Rozmiar zbioru danych : 6.83 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 586
'test' 632
'train' 722
'validation' 3072

wspólny_głos/ka

  • Opis konfiguracji : Kod języka: ka

  • Rozmiar pobierania : 99.45 MiB

  • Rozmiar zbioru danych : 7.51 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 527
'test' 656
'train' 1058
'validation' 2275

wspólny_głos/kab

  • Opis konfiguracji : Kod języka: kab

  • Rozmiar pobierania : 15.99 GiB

  • Rozmiar zbioru danych : 718.51 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 14622
'test' 14622
'train' 120530
'validation' 573718

wspólny_głos/ky

  • Opis konfiguracji : Kod języka: ky

  • Rozmiar pobierania : 552.60 MiB

  • Rozmiar zbioru danych : 18.70 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 1511
'test' 1503
'train' 1955
'validation' 9236

wspólny_głos/lg

  • Opis konfiguracji : Kod języka: lg

  • Rozmiar pobierania : 198.55 MiB

  • Rozmiar zbioru danych : 6.65 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 384
'test' 584
'train' 1250
'validation' 2220

common_voice/lt

  • Opis konfiguracji : Kod języka: lt

  • Rozmiar pobierania : 129.03 MiB

  • Rozmiar zbioru danych : 4.79 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 244
'test' 466
'train' 931
'validation' 1644

wspólny_głos/poz

  • Opis konfiguracji : Kod języka: lv

  • Rozmiar pobierania : 198.66 MiB

  • Rozmiar zbioru danych : 13.07 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 2002
'test' 1882
'train' 2552
'validation' 6444

wspólny_głos/mn

  • Opis konfiguracji : Kod języka: mn

  • Rozmiar pobierania : 463.84 MiB

  • Rozmiar zbioru danych : 22.09 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 1837
'test' 1862
'train' 2183
'validation' 7487

wspólny_głos/mt

  • Opis konfiguracji : Kod języka: mt

  • Rozmiar pobierania : 405.42 MiB

  • Rozmiar zbioru danych : 15.09 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 1516
'test' 1617
'train' 2036
'validation' 5747

common_voice/nl

  • Opis konfiguracji : Kod języka: nl

  • Rozmiar pobierania : 1.62 GiB

  • Rozmiar zbioru danych : 90.20 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 4938
'test' 5708
'train' 9460
'validation' 52 488

wspólny_głos/lub

  • Opis konfiguracji : Kod języka: lub

  • Rozmiar pobierania : 189.85 MiB

  • Rozmiar zbioru danych : 1.97 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 129
'test' 98
'train' 388
'validation' 615

wspólny_głos/pa-IN

  • Opis konfiguracji : Kod języka: pa-IN

  • Rozmiar pobierania : 66.52 MiB

  • Rozmiar zbioru danych : 1.03 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 44
'test' 116
'train' 211
'validation' 371

common_voice/pl

  • Opis konfiguracji : Kod języka: pl

  • Rozmiar pliku do pobrania : 3.29 GiB

  • Rozmiar zbioru danych : 141.06 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 5153
'test' 5153
'train' 7468
'validation' 90 791

wspólny_głos/pt

  • Opis konfiguracji : Kod języka: pkt

  • Rozmiar pobierania : 1.59 GiB

  • Rozmiar zbioru danych : 75.64 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 4592
'test' 4641
'train' 6514
'validation' 41584

common_voice/rm-sursilv

  • Opis konfiguracji : Kod języka: rm-sursilv

  • Rozmiar pobierania : 263.17 MiB

  • Rozmiar zbioru danych : 12.31 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 1205
'test' 1194
'train' 1384
'validation' 3783

common_voice/rm-vallader

  • Opis konfiguracji : Kod języka: rm-vallader

  • Rozmiar pobierania : 103.11 MiB

  • Rozmiar zbioru danych : 4.89 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 357
'test' 378
'train' 574
'validation' 1316

wspólny_głos/ro

  • Opis konfiguracji : Kod języka: ro

  • Rozmiar pobierania : 249.84 MiB

  • Rozmiar zbioru danych : 14.54 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 858
'test' 1778
'train' 3399
'validation' 6039

wspólny_głos/ru

  • Opis konfiguracji : Kod języka: ru

  • Rozmiar pobierania : 3.40 GiB

  • Rozmiar zbioru danych : 175.04 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 7963
'test' 8007
'train' 15 481
'validation' 74256

wspólny_głos/rw

  • Opis konfiguracji : Kod języka: rw

  • Rozmiar pobierania : 39.62 GiB

  • Rozmiar zbioru danych : 2.18 TiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 15032
'test' 15724
'train' 515.197
'validation' 832929

wspólny_głos/sah

  • Opis konfiguracji : Kod języka: sah

  • Rozmiar pobierania : 172.85 MiB

  • Rozmiar zbioru danych : 9.42 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 405
'test' 757
'train' 1442
'validation' 2606

wspólny_głos/sl

  • Opis konfiguracji : Kod języka: sl

  • Rozmiar pobierania : 212.43 MiB

  • Rozmiar zbioru danych : 9.67 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 556
'test' 881
'train' 2038
'validation' 4669

wspólny_głos/sv-SE

  • Opis konfiguracji : Kod języka: sv-SE

  • Rozmiar pobierania : 401.91 MiB

  • Rozmiar zbioru danych : 18.27 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 2019
'test' 2027
'train' 2331
'validation' 12552

wspólny_głos/ta

  • Opis konfiguracji : Kod języka: ta

  • Rozmiar pobierania : 648.28 MiB

  • Rozmiar zbioru danych : 24.06 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 1779
'test' 1781
'train' 2009
'validation' 12652

wspólny_głos/th

  • Opis konfiguracji : Kod języka: th

  • Rozmiar pobierania : 325.49 MiB

  • Rozmiar zbioru danych : 18.32 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 1922
'test' 2188
'train' 2917
'validation' 7028

wspólny_głos/tr

  • Opis konfiguracji : Kod języka: tr

  • Rozmiar pobierania : 592.09 MiB

  • Rozmiar zbioru danych : 28.21 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 1647
'test' 1647
'train' 1831
'validation' 18685

wspólny_głos/tt

  • Opis konfiguracji : Kod języka: tt

  • Rozmiar pobierania : 741.15 MiB

  • Rozmiar zbioru danych : 46.85 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 2127
'test' 4485
'train' 11211
'validation' 25781

common_voice/uk

  • Opis konfiguracji : Kod języka: uk

  • Rozmiar pliku do pobrania : 1.13 GiB

  • Rozmiar zbioru danych : 49.66 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 3236
'test' 3235
'train' 4035
'validation' 22337

wspólny_głos/vi

  • Opis konfiguracji : Kod języka: vi

  • Rozmiar pobierania : 49.52 MiB

  • Rozmiar zbioru danych : 1.47 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 200
'test' 198
'train' 221
'validation' 619

wspólny_głos/głos

  • Opis konfiguracji : Kod języka: vot

  • Rozmiar pliku do pobrania : 7.43 MiB

  • Rozmiar zbioru danych : 11.39 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Podział Przykłady
'train' 3
'validation' 3

wspólny_głos/zh-CN

  • Opis konfiguracji : Kod języka: zh-CN

  • Rozmiar pobierania : 2.03 GiB

  • Rozmiar zbioru danych : 122.54 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 8743
'test' 8760
'train' 18541
'validation' 36 405

wspólny_głos/zh-HK

  • Opis konfiguracji : Kod języka: zh-HK

  • Rozmiar pobierania : 2.58 GiB

  • Rozmiar zbioru danych : 78.80 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 5172
'test' 5172
'train' 7506
'validation' 41835

wspólny_głos/zh-TW

  • Opis konfiguracji : Kod języka: zh-TW

  • Rozmiar pobierania : 2.03 GiB

  • Rozmiar zbioru danych : 69.06 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'dev' 2895
'test' 2895
'train' 3507
'validation' 61232