common_voice

  • Описание :

Общий набор голосовых данных Mozilla

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio does not match text),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio matches the text),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание
ВозможностиDict
акцент Текст нить Акцент говорящего см. https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts .
возраст Текст нить Возраст говорящего (например, подростки или сорок лет), см. https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts .
client_id Текст нить Хешированный UUID данного пользователя
отрицательные голоса Скаляр int32 Количество людей, которые сказали, что звук не соответствует тексту
пол Класслейбл int64 Пол говорящего
сегмент Текст нить Если предложение принадлежит сегменту пользовательского набора данных, оно будет указано здесь.
предложение Текст нить Предполагаемая транскрипция аудио
голоса против Скаляр int32 Количество людей, которые сказали, что звук соответствует тексту
голос Аудио (Никто,) int64

common_voice/en (конфигурация по умолчанию)

  • Описание конфигурации : Код языка: en

  • Размер загрузки : 56.45 GiB

  • Размер набора данных : 2.79 TiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 16 164
'test' 16 164
'train' 564 337
'validation' 1 224 864

common_voice/ab

  • Описание конфигурации : Код языка: ab

  • Размер загрузки : 39.14 MiB

  • Размер набора данных : 133.24 MiB

  • Автокэширование ( документация ): Да

  • Расколы :

Расколоть Примеры
'test' 9
'train' 22
'validation' 31

common_voice/ar

  • Описание конфигурации : Код языка: ar

  • Размер загрузки : 1.64 GiB

  • Размер набора данных : 67.16 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 7,517
'test' 7,622
'train' 14 227
'validation' 43 291

common_voice/как

  • Описание конфигурации : Код языка: как

  • Размер загрузки : 21.20 MiB

  • Размер набора данных : 1.65 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 124
'test' 110
'train' 270
'validation' 504

common_voice/br

  • Описание конфигурации : Код языка: br

  • Размер загрузки : 443.72 MiB

  • Размер набора данных : 13.46 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 1997
'test' 2087
'train' 2780
'validation' 8,560

common_voice/ca

  • Описание конфигурации : Код языка: ca

  • Размер загрузки : 19.32 GiB

  • Размер набора данных : 1.19 TiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 15 724
'test' 15 724
'train' 285 584
'validation' 416 701

common_voice/cnh

  • Описание конфигурации : Код языка: cnh

  • Размер загрузки : 153.86 MiB

  • Размер набора данных : 5.12 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 756
'test' 752
'train' 807
'validation' 2432

common_voice/cs

  • Описание конфигурации : Код языка: cs

  • Размер загрузки : 1.18 GiB

  • Размер набора данных : 56.89 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 4118
'test' 4144
'train' 5,655
'validation' 30 431

common_voice/резюме

  • Описание конфигурации : Код языка: cv

  • Размер загрузки : 418.98 MiB

  • Размер набора данных : 8.10 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 818
'test' 788
'train' 931
'validation' 3496

common_voice/cy

  • Описание конфигурации : Код языка: cy

  • Размер загрузки : 3.20 GiB

  • Размер набора данных : 128.68 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 4776
'test' 4820
'train' 6839
'validation' 72 984

common_voice/де

  • Описание конфигурации : Код языка: de

  • Размер загрузки : 21.68 GiB

  • Размер набора данных : 1.29 TiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 15 588
'test' 15 588
'train' 246 525
'validation' 565 186

common_voice/dv

  • Описание конфигурации : Код языка: dv

  • Размер загрузки : 515.45 MiB

  • Размер набора данных : 31.59 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 2077
'test' 2202
'train' 2680
'validation' 11 866

common_voice/эл.

  • Описание конфигурации : Код языка: el

  • Размер загрузки : 363.89 MiB

  • Размер набора данных : 14.62 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 1401
'test' 1522
'train' 2316
'validation' 5996

common_voice/eo

  • Описание конфигурации : Код языка: eo

  • Размер загрузки : 2.69 GiB

  • Размер набора данных : 167.14 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 8,987
'test' 8,969
'train' 19 587
'validation' 58 094

common_voice/es

  • Описание конфигурации : Код языка: es

  • Размер загрузки : 15.08 GiB

  • Размер набора данных : 684.66 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 15 089
'test' 15 089
'train' 161 813
'validation' 236 314

common_voice/et

  • Описание конфигурации : Код языка: et

  • Размер загрузки : 731.63 MiB

  • Размер набора данных : 37.95 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 2507
'test' 2509
'train' 2966
'validation' 10 683

common_voice/eu

  • Описание конфигурации : Код языка: eu

  • Размер загрузки : 3.41 GiB

  • Размер набора данных : 127.60 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 5,172
'test' 5,172
'train' 7505
'validation' 63 009

common_voice/fa

  • Описание конфигурации : Код языка: fa

  • Размер загрузки : 8.27 GiB

  • Размер набора данных : 328.61 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 5,213
'test' 5,213
'train' 7,593
'validation' 251 659

common_voice/фи

  • Описание конфигурации : Код языка: fi

  • Размер загрузки : 47.57 MiB

  • Размер набора данных : 3.41 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 415
'test' 428
'train' 460
'validation' 1305

common_voice/фр.

  • Описание конфигурации : Код языка: fr

  • Размер загрузки : 17.82 GiB

  • Размер набора данных : 1.17 TiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 15 763
'test' 15 763
'train' 298 982
'validation' 461 004

common_voice/fy-NL

  • Описание конфигурации : Код языка: fy-NL.

  • Размер загрузки : 1.15 GiB

  • Размер набора данных : 29.93 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 2790
'test' 3020
'train' 3927
'validation' 10 495

common_voice/ga-IE

  • Описание конфигурации : Код языка: ga-IE

  • Размер загрузки : 149.30 MiB

  • Размер набора данных : 5.11 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 497
'test' 506
'train' 541
'validation' 3,352

common_voice/привет

  • Описание конфигурации : Код языка: привет

  • Размер загрузки : 20.43 MiB

  • Размер набора данных : 1.15 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 135
'test' 127
'train' 157
'validation' 419

common_voice/hsb

  • Описание конфигурации : Код языка: hsb

  • Размер загрузки : 75.69 MiB

  • Размер набора данных : 5.67 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 172
'test' 387
'train' 808
'validation' 1367

common_voice/ху

  • Описание конфигурации : Код языка: hu

  • Размер загрузки : 231.51 MiB

  • Размер набора данных : 17.07 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 1434
'test' 1649
'train' 3348
'validation' 6,457

common_voice/ia

  • Описание конфигурации : Код языка: ia

  • Размер загрузки : 216.01 MiB

  • Размер набора данных : 14.99 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 1601
'test' 899
'train' 3477
'validation' 5,978

общий_голос/идентификатор

  • Описание конфигурации : Код языка: id

  • Размер загрузки : 453.87 MiB

  • Размер набора данных : 17.20 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 1835
'test' 1844
'train' 2130
'validation' 8696

common_voice/это

  • Описание конфигурации : Код языка: it

  • Размер загрузки : 5.20 GiB

  • Размер набора данных : 316.38 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 12 928
'test' 12 928
'train' 58 015
'validation' 102 579

common_voice/я

  • Описание конфигурации : Код языка: ja

  • Размер загрузки : 145.80 MiB

  • Размер набора данных : 6.83 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 586
'test' 632
'train' 722
'validation' 3072

common_voice/ка

  • Описание конфигурации : Код языка: ka

  • Размер загрузки : 99.45 MiB

  • Размер набора данных : 7.51 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 527
'test' 656
'train' 1058
'validation' 2275

common_voice/kab

  • Описание конфигурации : Код языка: kab

  • Размер загрузки : 15.99 GiB

  • Размер набора данных : 718.51 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 14 622
'test' 14 622
'train' 120 530
'validation' 573 718

common_voice/ky

  • Описание конфигурации : Код языка: ky

  • Размер загрузки : 552.60 MiB

  • Размер набора данных : 18.70 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 1511
'test' 1503
'train' 1955
'validation' 9,236

common_voice/lg

  • Описание конфигурации : Код языка: lg

  • Размер загрузки : 198.55 MiB

  • Размер набора данных : 6.65 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 384
'test' 584
'train' 1250
'validation' 2220

common_voice/lt

  • Описание конфигурации : Код языка: lt

  • Размер загрузки : 129.03 MiB

  • Размер набора данных : 4.79 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 244
'test' 466
'train' 931
'validation' 1644

common_voice/lv

  • Описание конфигурации : Код языка: lv

  • Размер загрузки : 198.66 MiB

  • Размер набора данных : 13.07 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 2002
'test' 1882
'train' 2552
'validation' 6,444

common_voice/мин

  • Описание конфигурации : Код языка: mn

  • Размер загрузки : 463.84 MiB

  • Размер набора данных : 22.09 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 1837
'test' 1862
'train' 2183
'validation' 7,487

common_voice/MT

  • Описание конфигурации : Код языка: mt

  • Размер загрузки : 405.42 MiB

  • Размер набора данных : 15.09 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 1516
'test' 1617
'train' 2036
'validation' 5,747

common_voice/НЛ

  • Описание конфигурации : Код языка: nl

  • Размер загрузки : 1.62 GiB

  • Размер набора данных : 90.20 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 4938
'test' 5708
'train' 9,460
'validation' 52 488

общий_голос/или

  • Описание конфигурации : Код языка: или

  • Размер загрузки : 189.85 MiB

  • Размер набора данных : 1.97 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • Описание конфигурации : Код языка: pa-IN

  • Размер загрузки : 66.52 MiB

  • Размер набора данных : 1.03 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 44
'test' 116
'train' 211
'validation' 371

common_voice/pl

  • Описание конфигурации : Код языка: pl

  • Размер загрузки : 3.29 GiB

  • Размер набора данных : 141.06 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 5,153
'test' 5,153
'train' 7,468
'validation' 90 791

common_voice/пт

  • Описание конфигурации : Код языка: pt

  • Размер загрузки : 1.59 GiB

  • Размер набора данных : 75.64 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 4592
'test' 4641
'train' 6,514
'validation' 41 584

common_voice/rm-sursilv

  • Описание конфигурации : Код языка: rm-sursilv

  • Размер загрузки : 263.17 MiB

  • Размер набора данных : 12.31 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 1205
'test' 1194
'train' 1384
'validation' 3783

common_voice/rm-vallader

  • Описание конфигурации : Код языка: rm-vallader

  • Размер загрузки : 103.11 MiB

  • Размер набора данных : 4.89 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 357
'test' 378
'train' 574
'validation' 1316

common_voice/ro

  • Описание конфигурации : Код языка: ro

  • Размер загрузки : 249.84 MiB

  • Размер набора данных : 14.54 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 858
'test' 1778
'train' 3399
'validation' 6039

common_voice/ru

  • Описание конфига : Код языка: ru

  • Размер загрузки : 3.40 GiB

  • Размер набора данных : 175.04 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 7963
'test' 8,007
'train' 15 481
'validation' 74 256

common_voice/rw

  • Описание конфигурации : Код языка: rw

  • Размер загрузки : 39.62 GiB

  • Размер набора данных : 2.18 TiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 15 032
'test' 15 724
'train' 515 197
'validation' 832 929

common_voice/сах

  • Описание конфигурации : Код языка: сах

  • Размер загрузки : 172.85 MiB

  • Размер набора данных : 9.42 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 405
'test' 757
'train' 1442
'validation' 2606

common_voice/sl

  • Описание конфигурации : Код языка: sl

  • Размер загрузки : 212.43 MiB

  • Размер набора данных : 9.67 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 556
'test' 881
'train' 2038
'validation' 4669

common_voice/sv-SE

  • Описание конфигурации : Код языка: sv-SE.

  • Размер загрузки : 401.91 MiB

  • Размер набора данных : 18.27 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 2019
'test' 2027
'train' 2331
'validation' 12 552

common_voice/та

  • Описание конфигурации : Код языка: ta

  • Размер загрузки : 648.28 MiB

  • Размер набора данных : 24.06 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 1779
'test' 1781
'train' 2009
'validation' 12 652

общий_голос/th

  • Описание конфигурации : Код языка: th

  • Размер загрузки : 325.49 MiB

  • Размер набора данных : 18.32 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 1922
'test' 2188
'train' 2917
'validation' 7028

common_voice/tr

  • Описание конфигурации : Код языка: tr

  • Размер загрузки : 592.09 MiB

  • Размер набора данных : 28.21 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 1647
'test' 1647
'train' 1831
'validation' 18 685

common_voice/тт

  • Описание конфигурации : Код языка: tt

  • Размер загрузки : 741.15 MiB

  • Размер набора данных : 46.85 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 2127
'test' 4,485
'train' 11 211
'validation' 25 781

common_voice/uk

  • Описание конфигурации : Код языка: uk

  • Размер загрузки : 1.13 GiB

  • Размер набора данных : 49.66 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 3236
'test' 3235
'train' 4035
'validation' 22 337

common_voice/vi

  • Описание конфигурации : Код языка: vi.

  • Размер загрузки : 49.52 MiB

  • Размер набора данных : 1.47 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 200
'test' 198
'train' 221
'validation' 619

common_voice/голос

  • Описание конфигурации : Код языка: vot

  • Размер загрузки : 7.43 MiB

  • Размер набора данных : 11.39 MiB

  • Автокэширование ( документация ): Да

  • Расколы :

Расколоть Примеры
'train' 3
'validation' 3

common_voice/zh-CN

  • Описание конфигурации : Код языка: zh-CN

  • Размер загрузки : 2.03 GiB

  • Размер набора данных : 122.54 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 8,743
'test' 8760
'train' 18 541
'validation' 36 405

common_voice/zh-HK

  • Описание конфигурации : Код языка: zh-HK

  • Размер загрузки : 2.58 GiB

  • Размер набора данных : 78.80 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 5,172
'test' 5,172
'train' 7,506
'validation' 41 835

common_voice/zh-TW

  • Описание конфигурации : Код языка: zh-TW

  • Размер загрузки : 2.03 GiB

  • Размер набора данных : 69.06 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'dev' 2895
'test' 2895
'train' 3507
'validation' 61 232