librispeech

  • Açıklama :

LibriSpeech, Daniel Povey'in yardımıyla Vassil Panayotov tarafından hazırlanan, 16 kHz'lik örnekleme hızıyla yaklaşık 1000 saatlik okunan İngilizce konuşmadan oluşan bir külliyattır. Veriler, LibriVox projesinden okunan sesli kitaplardan elde edilmiştir ve dikkatli bir şekilde bölümlere ayrılmış ve hizalanmıştır.

Daha hızlı okuma ve daha küçük veri kümesi boyutu için yavaş sesli kod çözme kullanılması önerilir: - tensorflow_io kitaplığını kurun: pip install tensorflow-io - yavaş kod çözmeyi etkinleştirin: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Bölmek örnekler
'dev_clean' 2.703
'dev_other' 2.864
'test_clean' 2.620
'test_other' 2.939
'train_clean100' 28.539
'train_clean360' 104.014
'train_other500' 148.688
  • Özellik yapısı :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Açıklama
ÖzelliklerDict
bölüm_kimliği tensör int64
İD tensör sicim
hoparlör_kimliği tensör int64
konuşma Ses (Hiçbiri,) int16
metin Metin sicim
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/varsayılan (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Varsayılan veri kümesi.

  • sürümler :

    • 2.1.1 (varsayılan): Konuşma veri türünü dtype=tf.int16 ile düzeltin.
    • 2.1.2 : 'lazy_decode' yapılandırmasını ekleyin.
  • Veri kümesi boyutu : 304.47 GiB

  • Örnekler ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Yapılandırma açıklaması : Ham ses veri kümesi.

  • sürümler :

    • 2.1.1 : Konuşma veri türünü dtype=tf.int16 ile düzeltin.
    • 2.1.2 (varsayılan): 'lazy_decode' yapılandırmasını ekleyin.
  • Veri kümesi boyutu : 59.37 GiB

  • Örnekler ( tfds.as_dataframe ): Eksik.

,

  • Açıklama :

LibriSpeech, Daniel Povey'in yardımıyla Vassil Panayotov tarafından hazırlanan, 16 kHz'lik örnekleme hızıyla yaklaşık 1000 saatlik okunan İngilizce konuşmadan oluşan bir külliyattır. Veriler, LibriVox projesinden okunan sesli kitaplardan elde edilmiştir ve dikkatli bir şekilde bölümlere ayrılmış ve hizalanmıştır.

Daha hızlı okuma ve daha küçük veri kümesi boyutu için yavaş sesli kod çözme kullanılması önerilir: - tensorflow_io kitaplığını kurun: pip install tensorflow-io - yavaş kod çözmeyi etkinleştirin: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Bölmek örnekler
'dev_clean' 2.703
'dev_other' 2.864
'test_clean' 2.620
'test_other' 2.939
'train_clean100' 28.539
'train_clean360' 104.014
'train_other500' 148.688
  • Özellik yapısı :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Açıklama
ÖzelliklerDict
bölüm_kimliği tensör int64
İD tensör sicim
hoparlör_kimliği tensör int64
konuşma Ses (Hiçbiri,) int16
metin Metin sicim
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/varsayılan (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Varsayılan veri kümesi.

  • sürümler :

    • 2.1.1 (varsayılan): Konuşma veri türünü dtype=tf.int16 ile düzeltin.
    • 2.1.2 : 'lazy_decode' yapılandırmasını ekleyin.
  • Veri kümesi boyutu : 304.47 GiB

  • Örnekler ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Yapılandırma açıklaması : Ham ses veri kümesi.

  • sürümler :

    • 2.1.1 : Konuşma veri türünü dtype=tf.int16 ile düzeltin.
    • 2.1.2 (varsayılan): 'lazy_decode' yapılandırmasını ekleyin.
  • Veri kümesi boyutu : 59.37 GiB

  • Örnekler ( tfds.as_dataframe ): Eksik.