common_voice

  • وصف :

مجموعة بيانات الصوت المشترك من موزيلا

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio does not match text),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio matches the text),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
لهجة نص خيط لهجة المتحدث، راجع https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
عمر نص خيط مجموعة العمر للمتحدث (مثل المراهقين أو الأربعينيات)، راجع https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.ts
معرف العميل نص خيط UUID المجزأ لمستخدم معين
التصويت السلبي العددية int32 عدد الأشخاص الذين قالوا إن الصوت لا يتطابق مع النص
جنس ClassLabel int64 جنس المتحدث
شريحة نص خيط إذا كانت الجملة تنتمي إلى شريحة مجموعة بيانات مخصصة، فسيتم إدراجها هنا
جملة نص خيط النسخ المفترض للصوت
الأصوات المؤيدة العددية int32 عدد الأشخاص الذين قالوا إن الصوت يطابق النص
صوت صوتي (لا أحد،) int64

common_voice/en (التكوين الافتراضي)

  • وصف التكوين : رمز اللغة: en

  • حجم التحميل : 56.45 GiB

  • حجم مجموعة البيانات : 2.79 TiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 16,164
'test' 16,164
'train' 564,337
'validation' 1,224,864

common_voice/ab

  • وصف التكوين : رمز اللغة: ab

  • حجم التحميل : 39.14 MiB

  • حجم مجموعة البيانات : 133.24 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الإنشقاقات :

ينقسم أمثلة
'test' 9
'train' 22
'validation' 31

common_voice/ar

  • وصف التكوين : رمز اللغة: ar

  • حجم التحميل : 1.64 GiB

  • حجم مجموعة البيانات : 67.16 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 7,517
'test' 7,622
'train' 14,227
'validation' 43,291

common_voice/as

  • وصف التكوين : رمز اللغة: as

  • حجم التحميل : 21.20 MiB

  • حجم مجموعة البيانات : 1.65 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 124
'test' 110
'train' 270
'validation' 504

common_voice/br

  • وصف التكوين : رمز اللغة: br

  • حجم التحميل : 443.72 MiB

  • حجم مجموعة البيانات : 13.46 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 1,997
'test' 2,087
'train' 2,780
'validation' 8,560

common_voice/ca

  • وصف التكوين : رمز اللغة: ca

  • حجم التحميل : 19.32 GiB

  • حجم مجموعة البيانات : 1.19 TiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 15,724
'test' 15,724
'train' 285,584
'validation' 416,701

common_voice/cnh

  • وصف التكوين : رمز اللغة: cnh

  • حجم التحميل : 153.86 MiB

  • حجم مجموعة البيانات : 5.12 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 756
'test' 752
'train' 807
'validation' 2,432

common_voice/cs

  • وصف التكوين : رمز اللغة: cs

  • حجم التحميل : 1.18 GiB

  • حجم مجموعة البيانات : 56.89 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 4,118
'test' 4,144
'train' 5,655
'validation' 30,431

common_voice/cv

  • وصف التكوين : رمز اللغة : السيرة الذاتية

  • حجم التحميل : 418.98 MiB

  • حجم مجموعة البيانات : 8.10 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 818
'test' 788
'train' 931
'validation' 3,496

common_voice/cy

  • وصف التكوين : رمز اللغة: cy

  • حجم التحميل : 3.20 GiB

  • حجم مجموعة البيانات : 128.68 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 4,776
'test' 4,820
'train' 6,839
'validation' 72,984

common_voice/de

  • وصف التكوين : رمز اللغة: de

  • حجم التحميل : 21.68 GiB

  • حجم مجموعة البيانات : 1.29 TiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 15,588
'test' 15,588
'train' 246,525
'validation' 565,186

common_voice/dv

  • وصف التكوين : رمز اللغة: dv

  • حجم التحميل : 515.45 MiB

  • حجم مجموعة البيانات : 31.59 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 2,077
'test' 2,202
'train' 2,680
'validation' 11,866

common_voice/el

  • وصف التكوين : رمز اللغة: el

  • حجم التحميل : 363.89 MiB

  • حجم مجموعة البيانات : 14.62 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 1,401
'test' 1,522
'train' 2,316
'validation' 5,996

common_voice/eo

  • وصف التكوين : رمز اللغة: eo

  • حجم التحميل : 2.69 GiB

  • حجم مجموعة البيانات : 167.14 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 8,987
'test' 8,969
'train' 19,587
'validation' 58,094

common_voice/es

  • وصف التكوين : رمز اللغة: es

  • حجم التحميل : 15.08 GiB

  • حجم مجموعة البيانات : 684.66 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 15,089
'test' 15,089
'train' 161,813
'validation' 236,314

common_voice/et

  • وصف التكوين : رمز اللغة: وآخرون

  • حجم التحميل : 731.63 MiB

  • حجم مجموعة البيانات : 37.95 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 2,507
'test' 2,509
'train' 2,966
'validation' 10,683

common_voice/eu

  • وصف التكوين : رمز اللغة: eu

  • حجم التحميل : 3.41 GiB

  • حجم مجموعة البيانات : 127.60 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 5,172
'test' 5,172
'train' 7,505
'validation' 63,009

common_voice/fa

  • وصف التكوين : رمز اللغة: fa

  • حجم التحميل : 8.27 GiB

  • حجم مجموعة البيانات : 328.61 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 5,213
'test' 5,213
'train' 7,593
'validation' 251,659

common_voice/fi

  • وصف التكوين : رمز اللغة: fi

  • حجم التحميل : 47.57 MiB

  • حجم مجموعة البيانات : 3.41 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 415
'test' 428
'train' 460
'validation' 1,305

common_voice/fr

  • وصف التكوين : رمز اللغة: fr

  • حجم التحميل : 17.82 GiB

  • حجم مجموعة البيانات : 1.17 TiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 15,763
'test' 15,763
'train' 298,982
'validation' 461,004

common_voice/fy-NL

  • وصف التكوين : رمز اللغة: fy-NL

  • حجم التحميل : 1.15 GiB

  • حجم مجموعة البيانات : 29.93 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 2,790
'test' 3,020
'train' 3,927
'validation' 10,495

common_voice/ga-IE

  • وصف التكوين : رمز اللغة: ga-IE

  • حجم التحميل : 149.30 MiB

  • حجم مجموعة البيانات : 5.11 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 497
'test' 506
'train' 541
'validation' 3,352

common_voice/مرحبا

  • وصف التكوين : رمز اللغة: hi

  • حجم التحميل : 20.43 MiB

  • حجم مجموعة البيانات : 1.15 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 135
'test' 127
'train' 157
'validation' 419

common_voice/hsb

  • وصف التكوين : رمز اللغة: hsb

  • حجم التحميل : 75.69 MiB

  • حجم مجموعة البيانات : 5.67 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 172
'test' 387
'train' 808
'validation' 1,367

common_voice/hu

  • وصف التكوين : رمز اللغة: hu

  • حجم التحميل : 231.51 MiB

  • حجم مجموعة البيانات : 17.07 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 1,434
'test' 1,649
'train' 3,348
'validation' 6,457

common_voice/ia

  • وصف التكوين : رمز اللغة: ia

  • حجم التحميل : 216.01 MiB

  • حجم مجموعة البيانات : 14.99 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 1,601
'test' 899
'train' 3,477
'validation' 5,978

common_voice/id

  • وصف التكوين : رمز اللغة: معرف

  • حجم التحميل : 453.87 MiB

  • حجم مجموعة البيانات : 17.20 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 1,835
'test' 1,844
'train' 2,130
'validation' 8,696

common_voice/it

  • وصف التكوين : رمز اللغة: it

  • حجم التحميل : 5.20 GiB

  • حجم مجموعة البيانات : 316.38 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 12,928
'test' 12,928
'train' 58,015
'validation' 102,579

common_voice/ja

  • وصف التكوين : رمز اللغة: ja

  • حجم التحميل : 145.80 MiB

  • حجم مجموعة البيانات : 6.83 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 586
'test' 632
'train' 722
'validation' 3,072

common_voice/ka

  • وصف التكوين : رمز اللغة: ka

  • حجم التحميل : 99.45 MiB

  • حجم مجموعة البيانات : 7.51 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 527
'test' 656
'train' 1,058
'validation' 2,275

common_voice/kab

  • وصف التكوين : رمز اللغة: kab

  • حجم التحميل : 15.99 GiB

  • حجم مجموعة البيانات : 718.51 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 14,622
'test' 14,622
'train' 120,530
'validation' 573,718

common_voice/ky

  • وصف التكوين : رمز اللغة: ky

  • حجم التحميل : 552.60 MiB

  • حجم مجموعة البيانات : 18.70 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 1,511
'test' 1,503
'train' 1,955
'validation' 9,236

common_voice/lg

  • وصف التكوين : رمز اللغة: lg

  • حجم التحميل : 198.55 MiB

  • حجم مجموعة البيانات : 6.65 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 384
'test' 584
'train' 1,250
'validation' 2,220

common_voice/lt

  • وصف التكوين : رمز اللغة: lt

  • حجم التحميل : 129.03 MiB

  • حجم مجموعة البيانات : 4.79 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 244
'test' 466
'train' 931
'validation' 1,644

common_voice/lv

  • وصف التكوين : رمز اللغة: lv

  • حجم التحميل : 198.66 MiB

  • حجم مجموعة البيانات : 13.07 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 2,002
'test' 1,882
'train' 2,552
'validation' 6,444

common_voice/mn

  • وصف التكوين : رمز اللغة: mn

  • حجم التحميل : 463.84 MiB

  • حجم مجموعة البيانات : 22.09 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 1,837
'test' 1,862
'train' 2,183
'validation' 7,487

common_voice/mt

  • وصف التكوين : رمز اللغة: mt

  • حجم التحميل : 405.42 MiB

  • حجم مجموعة البيانات : 15.09 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 1,516
'test' 1,617
'train' 2,036
'validation' 5,747

common_voice/nl

  • وصف التكوين : رمز اللغة: nl

  • حجم التحميل : 1.62 GiB

  • حجم مجموعة البيانات : 90.20 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 4,938
'test' 5,708
'train' 9,460
'validation' 52,488

common_voice/or

  • وصف التكوين : رمز اللغة: أو

  • حجم التحميل : 189.85 MiB

  • حجم مجموعة البيانات : 1.97 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • وصف التكوين : رمز اللغة: pa-IN

  • حجم التحميل : 66.52 MiB

  • حجم مجموعة البيانات : 1.03 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 44
'test' 116
'train' 211
'validation' 371

common_voice/pl

  • وصف التكوين : رمز اللغة: pl

  • حجم التحميل : 3.29 GiB

  • حجم مجموعة البيانات : 141.06 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 5,153
'test' 5,153
'train' 7,468
'validation' 90,791

common_voice/pt

  • وصف التكوين : رمز اللغة: pt

  • حجم التحميل : 1.59 GiB

  • حجم مجموعة البيانات : 75.64 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 4,592
'test' 4,641
'train' 6,514
'validation' 41,584

common_voice/rm-sursilv

  • وصف التكوين : رمز اللغة: rm-sursilv

  • حجم التحميل : 263.17 MiB

  • حجم مجموعة البيانات : 12.31 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 1,205
'test' 1,194
'train' 1,384
'validation' 3,783

common_voice/rm-vallader

  • وصف التكوين : رمز اللغة: rm-vallader

  • حجم التحميل : 103.11 MiB

  • حجم مجموعة البيانات : 4.89 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 357
'test' 378
'train' 574
'validation' 1,316

common_voice/ro

  • وصف التكوين : رمز اللغة: ro

  • حجم التحميل : 249.84 MiB

  • حجم مجموعة البيانات : 14.54 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 858
'test' 1,778
'train' 3,399
'validation' 6,039

common_voice/ru

  • وصف التكوين : رمز اللغة: ru

  • حجم التحميل : 3.40 GiB

  • حجم مجموعة البيانات : 175.04 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 7,963
'test' 8,007
'train' 15,481
'validation' 74,256

common_voice/rw

  • وصف التكوين : رمز اللغة: rw

  • حجم التحميل : 39.62 GiB

  • حجم مجموعة البيانات : 2.18 TiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 15,032
'test' 15,724
'train' 515,197
'validation' 832,929

common_voice/sah

  • وصف التكوين : رمز اللغة: sah

  • حجم التحميل : 172.85 MiB

  • حجم مجموعة البيانات : 9.42 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 405
'test' 757
'train' 1,442
'validation' 2,606

common_voice/sl

  • وصف التكوين : رمز اللغة: sl

  • حجم التحميل : 212.43 MiB

  • حجم مجموعة البيانات : 9.67 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 556
'test' 881
'train' 2,038
'validation' 4,669

common_voice/sv-SE

  • وصف التكوين : رمز اللغة: sv-SE

  • حجم التحميل : 401.91 MiB

  • حجم مجموعة البيانات : 18.27 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 2,019
'test' 2,027
'train' 2,331
'validation' 12,552

common_voice/ta

  • وصف التكوين : رمز اللغة: ta

  • حجم التحميل : 648.28 MiB

  • حجم مجموعة البيانات : 24.06 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 1,779
'test' 1,781
'train' 2,009
'validation' 12,652

common_voice/th

  • وصف التكوين : رمز اللغة: th

  • حجم التحميل : 325.49 MiB

  • حجم مجموعة البيانات : 18.32 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 1,922
'test' 2,188
'train' 2,917
'validation' 7,028

common_voice/tr

  • وصف التكوين : رمز اللغة: tr

  • حجم التحميل : 592.09 MiB

  • حجم مجموعة البيانات : 28.21 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 1,647
'test' 1,647
'train' 1,831
'validation' 18,685

common_voice/tt

  • وصف التكوين : رمز اللغة: tt

  • حجم التحميل : 741.15 MiB

  • حجم مجموعة البيانات : 46.85 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 2,127
'test' 4,485
'train' 11,211
'validation' 25,781

common_voice/uk

  • وصف التكوين : رمز اللغة: المملكة المتحدة

  • حجم التحميل : 1.13 GiB

  • حجم مجموعة البيانات : 49.66 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 3,236
'test' 3,235
'train' 4,035
'validation' 22,337

common_voice/vi

  • وصف التكوين : رمز اللغة: vi

  • حجم التحميل : 49.52 MiB

  • حجم مجموعة البيانات : 1.47 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 200
'test' 198
'train' 221
'validation' 619

common_voice/vot

  • وصف التكوين : رمز اللغة: vot

  • حجم التحميل : 7.43 MiB

  • حجم مجموعة البيانات : 11.39 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الإنشقاقات :

ينقسم أمثلة
'train' 3
'validation' 3

common_voice/zh-CN

  • وصف التكوين : رمز اللغة: zh-CN

  • حجم التحميل : 2.03 GiB

  • حجم مجموعة البيانات : 122.54 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 8,743
'test' 8,760
'train' 18,541
'validation' 36,405

common_voice/zh-HK

  • وصف التكوين : رمز اللغة: zh-HK

  • حجم التحميل : 2.58 GiB

  • حجم مجموعة البيانات : 78.80 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 5,172
'test' 5,172
'train' 7,506
'validation' 41,835

common_voice/zh-TW

  • وصف التكوين : رمز اللغة: zh-TW

  • حجم التحميل : 2.03 GiB

  • حجم مجموعة البيانات : 69.06 GiB

  • التخزين المؤقت التلقائي ( الوثائق ): لا

  • الإنشقاقات :

ينقسم أمثلة
'dev' 2,895
'test' 2,895
'train' 3,507
'validation' 61,232