voix_commune

  • Description :

Ensemble de données vocales communes de Mozilla

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio does not match text),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio matches the text),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Type D Description
FonctionnalitésDict
accent Texte chaîne Accent de l'orateur, voir https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
âge Texte chaîne Tranche d'âge de l'orateur (par exemple, adolescents ou quarantaine), voir https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
client_id Texte chaîne UUID haché d'un utilisateur donné
votes négatifs Scalaire int32 Nombre de personnes qui ont déclaré que l'audio ne correspondait pas au texte
genre Étiquette de classe int64 Sexe de l'orateur
segment Texte chaîne Si la phrase appartient à un segment d'ensemble de données personnalisé, elle sera répertoriée ici
phrase Texte chaîne Transcription supposée de l'audio
votes positifs Scalaire int32 Nombre de personnes ayant déclaré que l'audio correspondait au texte
voix Audio (Aucun,) int64

common_voice/en (configuration par défaut)

  • Description de la configuration : Code de langue : fr

  • Taille du téléchargement : 56.45 GiB

  • Taille du jeu de données : 2.79 TiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 16 164
'test' 16 164
'train' 564 337
'validation' 1 224 864

common_voice/ab

  • Description de la configuration : Code de langue : ab

  • Taille du téléchargement : 39.14 MiB

  • Taille de l'ensemble de données : 133.24 MiB

  • Mise en cache automatique ( documentation ) : Oui

  • Divisions :

Diviser Exemples
'test' 9
'train' 22
'validation' 31

common_voice/ar

  • Description de la configuration : Code de langue : ar

  • Taille du téléchargement : 1.64 GiB

  • Taille de l'ensemble de données : 67.16 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 7 517
'test' 7 622
'train' 14 227
'validation' 43 291

common_voice/as

  • Description de la configuration : Code de langue : comme

  • Taille du téléchargement : 21.20 MiB

  • Taille du jeu de données : 1.65 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 124
'test' 110
'train' 270
'validation' 504

common_voice/fr

  • Description de la configuration : Code de langue : br

  • Taille du téléchargement : 443.72 MiB

  • Taille de l'ensemble de données : 13.46 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 1 997
'test' 2 087
'train' 2 780
'validation' 8 560

common_voice/ca

  • Description de la configuration : Code de langue : ca

  • Taille du téléchargement : 19.32 GiB

  • Taille du jeu de données : 1.19 TiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 15 724
'test' 15 724
'train' 285 584
'validation' 416 701

common_voice/cnh

  • Description de la configuration : Code de langue : cnh

  • Taille du téléchargement : 153.86 MiB

  • Taille de l'ensemble de données : 5.12 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 756
'test' 752
'train' 807
'validation' 2 432

common_voice/cs

  • Description de la configuration : Code de langue : cs

  • Taille du téléchargement : 1.18 GiB

  • Taille de l'ensemble de données : 56.89 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 4 118
'test' 4 144
'train' 5 655
'validation' 30 431

common_voice/cv

  • Description de la configuration : Code langue : cv

  • Taille du téléchargement : 418.98 MiB

  • Taille de l'ensemble de données : 8.10 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 818
'test' 788
'train' 931
'validation' 3 496

common_voice/cy

  • Description de la configuration : Code de langue : cy

  • Taille du téléchargement : 3.20 GiB

  • Taille de l'ensemble de données : 128.68 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 4 776
'test' 4 820
'train' 6 839
'validation' 72 984

common_voice/de

  • Description de la configuration : Code de langue : de

  • Taille du téléchargement : 21.68 GiB

  • Taille du jeu de données : 1.29 TiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 15 588
'test' 15 588
'train' 246 525
'validation' 565 186

common_voice/dv

  • Description de la configuration : Code langue : dv

  • Taille du téléchargement : 515.45 MiB

  • Taille de l'ensemble de données : 31.59 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 2 077
'test' 2 202
'train' 2 680
'validation' 11 866

common_voice/el

  • Description de la configuration : Code de langue : el

  • Taille du téléchargement : 363.89 MiB

  • Taille de l'ensemble de données : 14.62 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 1 401
'test' 1 522
'train' 2 316
'validation' 5 996

common_voice/eo

  • Description de la configuration : Code de langue : eo

  • Taille du téléchargement : 2.69 GiB

  • Taille de l'ensemble de données : 167.14 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 8 987
'test' 8 969
'train' 19 587
'validation' 58 094

common_voice/fr

  • Description de la configuration : Code de langue : es

  • Taille du téléchargement : 15.08 GiB

  • Taille de l'ensemble de données : 684.66 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 15 089
'test' 15 089
'train' 161 813
'validation' 236 314

common_voice/et

  • Description de la config : Code langue : et

  • Taille du téléchargement : 731.63 MiB

  • Taille de l'ensemble de données : 37.95 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 2 507
'test' 2 509
'train' 2 966
'validation' 10 683

common_voice/eu

  • Description de la configuration : Code de langue : eu

  • Taille du téléchargement : 3.41 GiB

  • Taille du jeu de données : 127.60 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 5 172
'test' 5 172
'train' 7 505
'validation' 63 009

common_voice/fa

  • Description de la configuration : Code de langue : fa

  • Taille du téléchargement : 8.27 GiB

  • Taille de l'ensemble de données : 328.61 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 5 213
'test' 5 213
'train' 7 593
'validation' 251 659

common_voice/fi

  • Description de la configuration : Code de langue : fi

  • Taille du téléchargement : 47.57 MiB

  • Taille de l'ensemble de données : 3.41 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 415
'test' 428
'train' 460
'validation' 1 305

common_voice/fr

  • Description de la config : Code langue : fr

  • Taille du téléchargement : 17.82 GiB

  • Taille du jeu de données : 1.17 TiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 15 763
'test' 15 763
'train' 298 982
'validation' 461 004

common_voice/fy-NL

  • Description de la configuration : Code de langue : fy-NL

  • Taille du téléchargement : 1.15 GiB

  • Taille de l'ensemble de données : 29.93 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 2 790
'test' 3 020
'train' 3 927
'validation' 10 495

common_voice/ga-IE

  • Description de la configuration : Code de langue : ga-IE

  • Taille du téléchargement : 149.30 MiB

  • Taille de l'ensemble de données : 5.11 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 497
'test' 506
'train' 541
'validation' 3 352

common_voice/salut

  • Description de la configuration : Code de langue : salut

  • Taille du téléchargement : 20.43 MiB

  • Taille du jeu de données : 1.15 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 135
'test' 127
'train' 157
'validation' 419

common_voice/hsb

  • Description de la configuration : Code de langue : hsb

  • Taille du téléchargement : 75.69 MiB

  • Taille de l'ensemble de données : 5.67 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 172
'test' 387
'train' 808
'validation' 1 367

common_voice/hu

  • Description de la configuration : Code de langue : hu

  • Taille du téléchargement : 231.51 MiB

  • Taille de l'ensemble de données : 17.07 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 1 434
'test' 1 649
'train' 3 348
'validation' 6 457

common_voice/ia

  • Description de la configuration : Code de langue : ia

  • Taille du téléchargement : 216.01 MiB

  • Taille de l'ensemble de données : 14.99 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 1 601
'test' 899
'train' 3 477
'validation' 5 978

common_voice/id

  • Description de la configuration : Code de langue : id

  • Taille du téléchargement : 453.87 MiB

  • Taille du jeu de données : 17.20 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 1 835
'test' 1 844
'train' 2 130
'validation' 8 696

common_voice/it

  • Description de la configuration : Code de langue : it

  • Taille du téléchargement : 5.20 GiB

  • Taille de l'ensemble de données : 316.38 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 12 928
'test' 12 928
'train' 58 015
'validation' 102 579

common_voice/ja

  • Description de la configuration : Code de langue : ja

  • Taille du téléchargement : 145.80 MiB

  • Taille de l'ensemble de données : 6.83 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 586
'test' 632
'train' 722
'validation' 3 072

common_voice/ka

  • Description de la configuration : Code de langue : ka

  • Taille du téléchargement : 99.45 MiB

  • Taille de l'ensemble de données : 7.51 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 527
'test' 656
'train' 1 058
'validation' 2 275

common_voice/kab

  • Description de la configuration : Code de langue : kab

  • Taille du téléchargement : 15.99 GiB

  • Taille de l'ensemble de données : 718.51 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 14 622
'test' 14 622
'train' 120 530
'validation' 573 718

common_voice/ky

  • Description de la configuration : Code de langue : ky

  • Taille du téléchargement : 552.60 MiB

  • Taille du jeu de données : 18.70 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 1 511
'test' 1 503
'train' 1 955
'validation' 9 236

common_voice/lg

  • Description de la configuration : Code de langue : lg

  • Taille du téléchargement : 198.55 MiB

  • Taille du jeu de données : 6.65 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 384
'test' 584
'train' 1 250
'validation' 2 220

common_voice/lt

  • Description de la configuration : Code de langue : lt

  • Taille du téléchargement : 129.03 MiB

  • Taille de l'ensemble de données : 4.79 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 244
'test' 466
'train' 931
'validation' 1 644

common_voice/lv

  • Description de la configuration : Code de langue : lv

  • Taille du téléchargement : 198.66 MiB

  • Taille de l'ensemble de données : 13.07 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 2 002
'test' 1 882
'train' 2 552
'validation' 6 444

common_voice/mn

  • Description de la configuration : Code langue : mn

  • Taille du téléchargement : 463.84 MiB

  • Taille de l'ensemble de données : 22.09 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 1 837
'test' 1 862
'train' 2 183
'validation' 7 487

common_voice/mt

  • Description de la configuration : Code de langue : mt

  • Taille du téléchargement : 405.42 MiB

  • Taille de l'ensemble de données : 15.09 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 1 516
'test' 1 617
'train' 2 036
'validation' 5 747

common_voice/nl

  • Description de la configuration : Code de langue : nl

  • Taille du téléchargement : 1.62 GiB

  • Taille du jeu de données : 90.20 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 4 938
'test' 5 708
'train' 9 460
'validation' 52 488

common_voice/ou

  • Description de la configuration : Code de langue : ou

  • Taille du téléchargement : 189.85 MiB

  • Taille du jeu de données : 1.97 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • Description de la configuration : Code langue : pa-IN

  • Taille du téléchargement : 66.52 MiB

  • Taille du jeu de données : 1.03 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 44
'test' 116
'train' 211
'validation' 371

common_voice/pl

  • Description de la configuration : Code de langue : pl

  • Taille du téléchargement : 3.29 GiB

  • Taille de l'ensemble de données : 141.06 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 5 153
'test' 5 153
'train' 7 468
'validation' 90 791

common_voice/pt

  • Description de la configuration : Code de langue : pt

  • Taille du téléchargement : 1.59 GiB

  • Taille de l'ensemble de données : 75.64 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 4 592
'test' 4 641
'train' 6 514
'validation' 41 584

common_voice/rm-sursilv

  • Description de la configuration : Code de langue : rm-sursilv

  • Taille du téléchargement : 263.17 MiB

  • Taille de l'ensemble de données : 12.31 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 1 205
'test' 1 194
'train' 1 384
'validation' 3 783

common_voice/rm-vallader

  • Description de la configuration : Code de langue : rm-vallader

  • Taille du téléchargement : 103.11 MiB

  • Taille de l'ensemble de données : 4.89 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 357
'test' 378
'train' 574
'validation' 1 316

common_voice/ro

  • Description de la configuration : Code de langue : ro

  • Taille du téléchargement : 249.84 MiB

  • Taille de l'ensemble de données : 14.54 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 858
'test' 1 778
'train' 3 399
'validation' 6 039

common_voice/ru

  • Description de la configuration : Code de langue : ru

  • Taille du téléchargement : 3.40 GiB

  • Taille de l'ensemble de données : 175.04 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 7 963
'test' 8 007
'train' 15 481
'validation' 74 256

common_voice/rw

  • Description de la configuration : Code de langue : rw

  • Taille du téléchargement : 39.62 GiB

  • Taille du jeu de données : 2.18 TiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 15 032
'test' 15 724
'train' 515 197
'validation' 832 929

common_voice/sah

  • Description de la configuration : Code de langue : sah

  • Taille du téléchargement : 172.85 MiB

  • Taille de l'ensemble de données : 9.42 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 405
'test' 757
'train' 1 442
'validation' 2 606

common_voice/sl

  • Description de la configuration : Code de langue : sl

  • Taille du téléchargement : 212.43 MiB

  • Taille de l'ensemble de données : 9.67 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 556
'test' 881
'train' 2 038
'validation' 4 669

common_voice/sv-SE

  • Description de la configuration : Code de langue : sv-SE

  • Taille du téléchargement : 401.91 MiB

  • Taille de l'ensemble de données : 18.27 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 2 019
'test' 2 027
'train' 2 331
'validation' 12 552

common_voice/ta

  • Description de la configuration : Code de langue : ta

  • Taille du téléchargement : 648.28 MiB

  • Taille de l'ensemble de données : 24.06 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 1 779
'test' 1 781
'train' 2 009
'validation' 12 652

common_voice/th

  • Description de la configuration : Code de langue : th

  • Taille du téléchargement : 325.49 MiB

  • Taille de l'ensemble de données : 18.32 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 1 922
'test' 2 188
'train' 2 917
'validation' 7 028

common_voice/tr

  • Description de la configuration : Code de langue : tr

  • Taille du téléchargement : 592.09 MiB

  • Taille de l'ensemble de données : 28.21 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 1 647
'test' 1 647
'train' 1 831
'validation' 18 685

common_voice/tt

  • Description de la configuration : Code langue : tt

  • Taille du téléchargement : 741.15 MiB

  • Taille du jeu de données : 46.85 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 2 127
'test' 4 485
'train' 11 211
'validation' 25 781

common_voice/royaume-uni

  • Description de la configuration : Code de langue : uk

  • Taille du téléchargement : 1.13 GiB

  • Taille de l'ensemble de données : 49.66 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 3 236
'test' 3 235
'train' 4 035
'validation' 22 337

common_voice/vi

  • Description de la configuration : Code de langue : vi

  • Taille du téléchargement : 49.52 MiB

  • Taille du jeu de données : 1.47 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 200
'test' 198
'train' 221
'validation' 619

common_voice/vot

  • Description de la configuration : Code langue : vote

  • Taille du téléchargement : 7.43 MiB

  • Taille de l'ensemble de données : 11.39 MiB

  • Mise en cache automatique ( documentation ) : Oui

  • Divisions :

Diviser Exemples
'train' 3
'validation' 3

common_voice/zh-CN

  • Description de la configuration : Code de langue : zh-CN

  • Taille du téléchargement : 2.03 GiB

  • Taille de l'ensemble de données : 122.54 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 8 743
'test' 8 760
'train' 18 541
'validation' 36 405

common_voice/zh-HK

  • Description de la configuration : Code de langue : zh-HK

  • Taille du téléchargement : 2.58 GiB

  • Taille du jeu de données : 78.80 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 5 172
'test' 5 172
'train' 7 506
'validation' 41 835

common_voice/zh-TW

  • Description de la configuration : Code de langue : zh-TW

  • Taille du téléchargement : 2.03 GiB

  • Taille de l'ensemble de données : 69.06 GiB

  • Mise en cache automatique ( documentation ) : Non

  • Divisions :

Diviser Exemples
'dev' 2 895
'test' 2 895
'train' 3 507
'validation' 61 232