common_voice

  • 説明

Mozilla 共通音声データセット

FeaturesDict({
    'accent': Text(shape=(), dtype=string),
    'age': Text(shape=(), dtype=string),
    'client_id': Text(shape=(), dtype=string),
    'downvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio does not match text),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'segment': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
    'upvotes': Scalar(shape=(), dtype=int32, description=Number of people who said audio matches the text),
    'voice': Audio(shape=(None,), dtype=int64),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
アクセント文章スピーカーのアクセントについては、 https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.tsを参照してください。
文章話者の年齢層 (10 代、40 代など)、 https://github.com/common-voice/common-voice/blob/main/web/src/stores/demographics.tsを参照してください。
クライアントID文章特定のユーザーのハッシュ化された UUID
反対票スカラーint32音声がテキストと一致しないと答えた人の数
性別クラスラベルint64発言者の性別
セグメント文章文がカスタム データセット セグメントに属している場合、ここにリストされます。
文章想定される音声の転写
賛成票スカラーint32音声がテキストと一致すると答えた人の数
オーディオ(なし、) int64

common_voice/en (デフォルト設定)

  • 設定の説明: 言語コード: en

  • ダウンロードサイズ: 56.45 GiB

  • データセットのサイズ: 2.79 TiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 16,164
'test' 16,164
'train' 564,337
'validation' 1,224,864

common_voice/ab

  • 設定の説明: 言語コード: ab

  • ダウンロードサイズ: 39.14 MiB

  • データセットのサイズ: 133.24 MiB

  • 自動キャッシュ(ドキュメント): はい

  • 分割:

スプリット
'test' 9
'train' 22
'validation' 31

common_voice/ar

  • 設定の説明: 言語コード: ar

  • ダウンロードサイズ: 1.64 GiB

  • データセットのサイズ: 67.16 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 7,517
'test' 7,622
'train' 14,227
'validation' 43,291

common_voice/as

  • 設定の説明: 言語コード: as

  • ダウンロードサイズ: 21.20 MiB

  • データセットのサイズ: 1.65 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 124
'test' 110
'train' 270
'validation' 504

common_voice/br

  • 設定の説明: 言語コード: br

  • ダウンロードサイズ: 443.72 MiB

  • データセットのサイズ: 13.46 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 1,997
'test' 2,087
'train' 2,780
'validation' 8,560

common_voice/ca

  • 設定の説明: 言語コード: ca

  • ダウンロードサイズ: 19.32 GiB

  • データセットのサイズ: 1.19 TiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 15,724
'test' 15,724
'train' 285,584
'validation' 416,701

common_voice/cnh

  • 設定の説明: 言語コード: cnh

  • ダウンロードサイズ: 153.86 MiB

  • データセットのサイズ: 5.12 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 756
'test' 752
'train' 807
'validation' 2,432

common_voice/cs

  • 設定の説明: 言語コード: cs

  • ダウンロードサイズ: 1.18 GiB

  • データセットのサイズ: 56.89 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 4,118
'test' 4,144
'train' 5,655
'validation' 30,431

共通の声/CV

  • 設定の説明: 言語コード: cv

  • ダウンロードサイズ: 418.98 MiB

  • データセットのサイズ: 8.10 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 818
'test' 788
'train' 931
'validation' 3,496

common_voice/cy

  • 設定の説明: 言語コード: cy

  • ダウンロードサイズ: 3.20 GiB

  • データセットのサイズ: 128.68 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 4,776
'test' 4,820
'train' 6,839
'validation' 72,984

common_voice/de

  • 設定の説明: 言語コード: de

  • ダウンロードサイズ: 21.68 GiB

  • データセットのサイズ: 1.29 TiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 15,588
'test' 15,588
'train' 246,525
'validation' 565,186

common_voice/dv

  • 設定の説明: 言語コード: dv

  • ダウンロードサイズ: 515.45 MiB

  • データセットのサイズ: 31.59 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 2,077
'test' 2,202
'train' 2,680
'validation' 11,866

common_voice/el

  • 設定の説明: 言語コード: el

  • ダウンロードサイズ: 363.89 MiB

  • データセットのサイズ: 14.62 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 1,401
'test' 1,522
'train' 2,316
'validation' 5,996

common_voice/eo

  • 設定の説明: 言語コード: eo

  • ダウンロードサイズ: 2.69 GiB

  • データセットのサイズ: 167.14 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 8,987
'test' 8,969
'train' 19,587
'validation' 58,094

common_voice/es

  • 設定の説明: 言語コード: es

  • ダウンロードサイズ: 15.08 GiB

  • データセットのサイズ: 684.66 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 15,089
'test' 15,089
'train' 161,813
'validation' 236,314

common_voice/et

  • 設定の説明: 言語コード: et

  • ダウンロードサイズ: 731.63 MiB

  • データセットのサイズ: 37.95 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 2,507
'test' 2,509
'train' 2,966
'validation' 10,683

common_voice/eu

  • 設定の説明: 言語コード: eu

  • ダウンロードサイズ: 3.41 GiB

  • データセットのサイズ: 127.60 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 5,172
'test' 5,172
'train' 7,505
'validation' 63,009

common_voice/fa

  • 設定の説明: 言語コード: fa

  • ダウンロードサイズ: 8.27 GiB

  • データセットのサイズ: 328.61 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 5,213
'test' 5,213
'train' 7,593
'validation' 251,659

common_voice/fi

  • 設定の説明: 言語コード: fi

  • ダウンロードサイズ: 47.57 MiB

  • データセットのサイズ: 3.41 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 415
'test' 428
'train' 460
'validation' 1,305

common_voice/fr

  • 設定の説明: 言語コード: fr

  • ダウンロードサイズ: 17.82 GiB

  • データセットのサイズ: 1.17 TiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 15,763
'test' 15,763
'train' 298,982
'validation' 461,004

common_voice/fy-NL

  • 設定の説明: 言語コード: fy-NL

  • ダウンロードサイズ: 1.15 GiB

  • データセットのサイズ: 29.93 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 2,790
'test' 3,020
'train' 3,927
'validation' 10,495

common_voice/ga-IE

  • 設定の説明: 言語コード: ga-IE

  • ダウンロードサイズ: 149.30 MiB

  • データセットのサイズ: 5.11 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 497
'test' 506
'train' 541
'validation' 3,352

common_voice/こんにちは

  • 設定の説明: 言語コード: hi

  • ダウンロードサイズ: 20.43 MiB

  • データセットのサイズ: 1.15 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 135
'test' 127
'train' 157
'validation' 419

common_voice/hsb

  • 設定の説明: 言語コード: hsb

  • ダウンロードサイズ: 75.69 MiB

  • データセットのサイズ: 5.67 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 172
'test' 387
'train' 808
'validation' 1,367

common_voice/胡

  • 設定の説明: 言語コード: hu

  • ダウンロードサイズ: 231.51 MiB

  • データセットのサイズ: 17.07 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 1,434
'test' 1,649
'train' 3,348
'validation' 6,457

common_voice/ia

  • 設定の説明: 言語コード: ia

  • ダウンロードサイズ: 216.01 MiB

  • データセットのサイズ: 14.99 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 1,601
'test' 899
'train' 3,477
'validation' 5,978

common_voice/id

  • 設定の説明: 言語コード: id

  • ダウンロードサイズ: 453.87 MiB

  • データセットのサイズ: 17.20 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 1,835
'test' 1,844
'train' 2,130
'validation' 8,696

common_voice/it

  • 設定の説明: 言語コード: it

  • ダウンロードサイズ: 5.20 GiB

  • データセットのサイズ: 316.38 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 12,928
'test' 12,928
'train' 58,015
'validation' 102,579

common_voice/ja

  • 設定の説明: 言語コード: ja

  • ダウンロードサイズ: 145.80 MiB

  • データセットのサイズ: 6.83 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 586
'test' 632
'train' 722
'validation' 3,072

common_voice/か

  • 設定の説明: 言語コード: ka

  • ダウンロードサイズ: 99.45 MiB

  • データセットのサイズ: 7.51 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 527
'test' 656
'train' 1,058
'validation' 2,275

common_voice/kab

  • 設定の説明: 言語コード: kab

  • ダウンロードサイズ: 15.99 GiB

  • データセットのサイズ: 718.51 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 14,622
'test' 14,622
'train' 120,530
'validation' 573,718

common_voice/ky

  • 設定の説明: 言語コード: ky

  • ダウンロードサイズ: 552.60 MiB

  • データセットのサイズ: 18.70 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 1,511
'test' 1,503
'train' 1,955
'validation' 9,236

common_voice/lg

  • 設定の説明: 言語コード: lg

  • ダウンロードサイズ: 198.55 MiB

  • データセットのサイズ: 6.65 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 384
'test' 584
'train' 1,250
'validation' 2,220

common_voice/lt

  • 設定の説明: 言語コード: lt

  • ダウンロードサイズ: 129.03 MiB

  • データセットのサイズ: 4.79 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 244
'test' 466
'train' 931
'validation' 1,644

common_voice/lv

  • 設定の説明: 言語コード: lv

  • ダウンロードサイズ: 198.66 MiB

  • データセットのサイズ: 13.07 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 2,002
'test' 1,882
'train' 2,552
'validation' 6,444

common_voice/分

  • 設定の説明: 言語コード: mn

  • ダウンロードサイズ: 463.84 MiB

  • データセットのサイズ: 22.09 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 1,837
'test' 1,862
'train' 2,183
'validation' 7,487

common_voice/MT

  • 設定の説明: 言語コード: mt

  • ダウンロードサイズ: 405.42 MiB

  • データセットのサイズ: 15.09 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 1,516
'test' 1,617
'train' 2,036
'validation' 5,747

common_voice/nl

  • 設定の説明: 言語コード: nl

  • ダウンロードサイズ: 1.62 GiB

  • データセットのサイズ: 90.20 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 4,938
'test' 5,708
'train' 9,460
'validation' 52,488

common_voice/または

  • 構成の説明: 言語コード: または

  • ダウンロードサイズ: 189.85 MiB

  • データセットのサイズ: 1.97 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 129
'test' 98
'train' 388
'validation' 615

common_voice/pa-IN

  • 設定の説明: 言語コード: pa-IN

  • ダウンロードサイズ: 66.52 MiB

  • データセットのサイズ: 1.03 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 44
'test' 116
'train' 211
'validation' 371

common_voice/pl

  • 設定の説明: 言語コード: pl

  • ダウンロードサイズ: 3.29 GiB

  • データセットのサイズ: 141.06 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 5,153
'test' 5,153
'train' 7,468
'validation' 90,791

common_voice/pt

  • 設定の説明: 言語コード: pt

  • ダウンロードサイズ: 1.59 GiB

  • データセットのサイズ: 75.64 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 4,592
'test' 4,641
'train' 6,514
'validation' 41,584

common_voice/rm-sursilv

  • 設定の説明: 言語コード: rm-sursilv

  • ダウンロードサイズ: 263.17 MiB

  • データセットのサイズ: 12.31 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 1,205
'test' 1,194
'train' 1,384
'validation' 3,783

common_voice/rm-vallader

  • 設定の説明: 言語コード: rm-vallader

  • ダウンロードサイズ: 103.11 MiB

  • データセットのサイズ: 4.89 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 357
'test' 378
'train' 574
'validation' 1,316

common_voice/ro

  • 設定の説明: 言語コード: ro

  • ダウンロードサイズ: 249.84 MiB

  • データセットのサイズ: 14.54 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 858
'test' 1,778
'train' 3,399
'validation' 6,039

common_voice/ru

  • 設定の説明: 言語コード: ru

  • ダウンロードサイズ: 3.40 GiB

  • データセットのサイズ: 175.04 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 7,963
'test' 8,007
'train' 15,481
'validation' 74,256

common_voice/rw

  • 設定の説明: 言語コード: rw

  • ダウンロードサイズ: 39.62 GiB

  • データセットのサイズ: 2.18 TiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 15,032
'test' 15,724
'train' 515,197
'validation' 832,929

common_voice/さぁ

  • 設定の説明: 言語コード: sah

  • ダウンロードサイズ: 172.85 MiB

  • データセットのサイズ: 9.42 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 405
'test' 757
'train' 1,442
'validation' 2,606

common_voice/sl

  • 設定の説明: 言語コード: sl

  • ダウンロードサイズ: 212.43 MiB

  • データセットのサイズ: 9.67 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 556
'test' 881
'train' 2,038
'validation' 4,669

common_voice/sv-SE

  • 設定の説明: 言語コード: sv-SE

  • ダウンロードサイズ: 401.91 MiB

  • データセットのサイズ: 18.27 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 2,019
'test' 2,027
'train' 2,331
'validation' 12,552

common_voice/ta

  • 設定の説明: 言語コード: ta

  • ダウンロードサイズ: 648.28 MiB

  • データセットのサイズ: 24.06 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 1,779
'test' 1,781
'train' 2,009
'validation' 12,652

common_voice/th

  • 設定の説明: 言語コード: th

  • ダウンロードサイズ: 325.49 MiB

  • データセットのサイズ: 18.32 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 1,922
'test' 2,188
'train' 2,917
'validation' 7,028

common_voice/tr

  • 設定の説明: 言語コード: tr

  • ダウンロードサイズ: 592.09 MiB

  • データセットのサイズ: 28.21 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 1,647
'test' 1,647
'train' 1,831
'validation' 18,685

common_voice/tt

  • 設定の説明: 言語コード: tt

  • ダウンロードサイズ: 741.15 MiB

  • データセットのサイズ: 46.85 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 2,127
'test' 4,485
'train' 11,211
'validation' 25,781

common_voice/英国

  • 設定の説明: 言語コード: uk

  • ダウンロードサイズ: 1.13 GiB

  • データセットのサイズ: 49.66 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 3,236
'test' 3,235
'train' 4,035
'validation' 22,337

common_voice/vi

  • 設定の説明: 言語コード: vi

  • ダウンロードサイズ: 49.52 MiB

  • データセットのサイズ: 1.47 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 200
'test' 198
'train' 221
'validation' 619

common_voice/投票

  • 設定の説明: 言語コード: vot

  • ダウンロードサイズ: 7.43 MiB

  • データセットのサイズ: 11.39 MiB

  • 自動キャッシュ(ドキュメント): はい

  • 分割:

スプリット
'train' 3
'validation' 3

common_voice/zh-CN

  • 設定の説明: 言語コード: zh-CN

  • ダウンロードサイズ: 2.03 GiB

  • データセットのサイズ: 122.54 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 8,743
'test' 8,760
'train' 18,541
'validation' 36,405

common_voice/zh-HK

  • 設定の説明: 言語コード: zh-HK

  • ダウンロードサイズ: 2.58 GiB

  • データセットのサイズ: 78.80 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 5,172
'test' 5,172
'train' 7,506
'validation' 41,835

common_voice/zh-TW

  • 設定の説明: 言語コード: zh-TW

  • ダウンロードサイズ: 2.03 GiB

  • データセットのサイズ: 69.06 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • 分割:

スプリット
'dev' 2,895
'test' 2,895
'train' 3,507
'validation' 61,232