- Açıklama :
LibriSpeech, Daniel Povey'in yardımıyla Vassil Panayotov tarafından hazırlanan, 16 kHz'lik örnekleme hızıyla yaklaşık 1000 saatlik okunan İngilizce konuşmadan oluşan bir külliyattır. Veriler, LibriVox projesinden okunan sesli kitaplardan elde edilmiştir ve dikkatli bir şekilde bölümlere ayrılmış ve hizalanmıştır.
Daha hızlı okuma ve daha küçük veri kümesi boyutu için yavaş sesli kod çözme kullanılması önerilir: - tensorflow_io
kitaplığını kurun: pip install tensorflow-io
- yavaş kod çözmeyi etkinleştirin: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Ana Sayfa : http://www.openslr.org/12
Kaynak kodu :
tfds.datasets.librispeech.Builder
İndirme boyutu :
57.14 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'dev_clean' | 2.703 |
'dev_other' | 2.864 |
'test_clean' | 2.620 |
'test_other' | 2.939 |
'train_clean100' | 28.539 |
'train_clean360' | 104.014 |
'train_other500' | 148.688 |
- Özellik yapısı :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Açıklama |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
İD | tensör | sicim | ||
hoparlör_kimliği | tensör | int64 | ||
konuşma | Ses | (Hiçbiri,) | int16 | |
metin | Metin | sicim |
Denetimli tuşlar (Bkz
as_supervised
doc ):('speech', 'text')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/varsayılan (varsayılan yapılandırma)
Yapılandırma açıklaması : Varsayılan veri kümesi.
sürümler :
-
2.1.1
(varsayılan): Konuşma veri türünü dtype=tf.int16 ile düzeltin. -
2.1.2
: 'lazy_decode' yapılandırmasını ekleyin.
-
Veri kümesi boyutu :
304.47 GiB
Örnekler ( tfds.as_dataframe ):
librispeech/lazy_decode
Yapılandırma açıklaması : Ham ses veri kümesi.
sürümler :
-
2.1.1
: Konuşma veri türünü dtype=tf.int16 ile düzeltin. -
2.1.2
(varsayılan): 'lazy_decode' yapılandırmasını ekleyin.
-
Veri kümesi boyutu :
59.37 GiB
Örnekler ( tfds.as_dataframe ): Eksik.
- Açıklama :
LibriSpeech, Daniel Povey'in yardımıyla Vassil Panayotov tarafından hazırlanan, 16 kHz'lik örnekleme hızıyla yaklaşık 1000 saatlik okunan İngilizce konuşmadan oluşan bir külliyattır. Veriler, LibriVox projesinden okunan sesli kitaplardan elde edilmiştir ve dikkatli bir şekilde bölümlere ayrılmış ve hizalanmıştır.
Daha hızlı okuma ve daha küçük veri kümesi boyutu için yavaş sesli kod çözme kullanılması önerilir: - tensorflow_io
kitaplığını kurun: pip install tensorflow-io
- yavaş kod çözmeyi etkinleştirin: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Ana Sayfa : http://www.openslr.org/12
Kaynak kodu :
tfds.datasets.librispeech.Builder
İndirme boyutu :
57.14 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'dev_clean' | 2.703 |
'dev_other' | 2.864 |
'test_clean' | 2.620 |
'test_other' | 2.939 |
'train_clean100' | 28.539 |
'train_clean360' | 104.014 |
'train_other500' | 148.688 |
- Özellik yapısı :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Açıklama |
---|---|---|---|---|
ÖzelliklerDict | ||||
bölüm_kimliği | tensör | int64 | ||
İD | tensör | sicim | ||
hoparlör_kimliği | tensör | int64 | ||
konuşma | Ses | (Hiçbiri,) | int16 | |
metin | Metin | sicim |
Denetimli tuşlar (Bkz
as_supervised
doc ):('speech', 'text')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/varsayılan (varsayılan yapılandırma)
Yapılandırma açıklaması : Varsayılan veri kümesi.
sürümler :
-
2.1.1
(varsayılan): Konuşma veri türünü dtype=tf.int16 ile düzeltin. -
2.1.2
: 'lazy_decode' yapılandırmasını ekleyin.
-
Veri kümesi boyutu :
304.47 GiB
Örnekler ( tfds.as_dataframe ):
librispeech/lazy_decode
Yapılandırma açıklaması : Ham ses veri kümesi.
sürümler :
-
2.1.1
: Konuşma veri türünü dtype=tf.int16 ile düzeltin. -
2.1.2
(varsayılan): 'lazy_decode' yapılandırmasını ekleyin.
-
Veri kümesi boyutu :
59.37 GiB
Örnekler ( tfds.as_dataframe ): Eksik.