- Описание :
LibriSpeech — это корпус примерно 1000 часов прочитанной английской речи с частотой дискретизации 16 кГц, подготовленный Вассилом Панайотовым при содействии Дэниела Пови. Данные получены из прочитанных аудиокниг проекта LibriVox, тщательно сегментированы и выровнены.
Рекомендуется использовать отложенное декодирование звука для более быстрого чтения и уменьшения размера набора данных: - установите библиотеку tensorflow_io
: pip install tensorflow-io
- включите отложенное декодирование: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Дополнительная документация : Изучите статьи с кодом
Домашняя страница : http://www.openslr.org/12 .
Исходный код :
tfds.datasets.librispeech.Builder
.Размер загрузки :
57.14 GiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'dev_clean' | 2703 |
'dev_other' | 2864 |
'test_clean' | 2620 |
'test_other' | 2939 |
'train_clean100' | 28 539 |
'train_clean360' | 104 014 |
'train_other500' | 148 688 |
- Структура функции :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Функциональная документация :
Особенность | Сорт | Форма | Дтип | Описание |
---|---|---|---|---|
ВозможностиDict | ||||
id_главы | Тензор | int64 | ||
идентификатор | Тензор | нить | ||
ИД динамика | Тензор | int64 | ||
речь | Аудио | (Никто,) | int16 | |
текст | Текст | нить |
Контролируемые ключи (см. документ
as_supervised
):('speech', 'text')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (конфигурация по умолчанию)
Описание конфигурации : набор данных по умолчанию.
Версии :
-
2.1.1
(по умолчанию): исправлен тип речевых данных с помощью dtype=tf.int16. -
2.1.2
: Добавьте конфигурацию lazy_decode.
-
Размер набора данных :
304.47 GiB
Примеры ( tfds.as_dataframe ):
librispeech/lazy_decode
Описание конфигурации : необработанный набор аудиоданных.
Версии :
-
2.1.1
: Исправлен тип речевых данных с помощью dtype=tf.int16. -
2.1.2
(по умолчанию): добавить конфигурацию lazy_decode.
-
Размер набора данных :
59.37 GiB
Примеры ( tfds.as_dataframe ):