- Описание :
LibriSpeech — это корпус из примерно 1000 часов прочитанной английской речи с частотой дискретизации 16 кГц, подготовленный Василом Панайотовым при содействии Дэниела Пови. Данные получены из прочитанных аудиокниг в рамках проекта LibriVox и тщательно сегментированы и согласованы.
Рекомендуется использовать ленивое декодирование звука для более быстрого чтения и меньшего размера набора данных: - установите библиотеку tensorflow_io
: pip install tensorflow-io
- включите ленивое декодирование: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Дополнительная документация : изучить документы с кодом
Домашняя страница : http://www.openslr.org/12
Исходный код :
tfds.datasets.librispeech.Builder
Размер загрузки :
57.14 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'dev_clean' | 2703 |
'dev_other' | 2864 |
'test_clean' | 2620 |
'test_other' | 2939 |
'train_clean100' | 28 539 |
'train_clean360' | 104 014 |
'train_other500' | 148 688 |
- Структура функции :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_главы | Тензор | int64 | ||
я бы | Тензор | нить | ||
спикер_ид | Тензор | int64 | ||
речь | Аудио | (Никто,) | int16 | |
текст | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('speech', 'text')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (конфигурация по умолчанию)
Описание конфигурации : набор данных по умолчанию.
Версии :
-
2.1.1
(по умолчанию): исправлен тип речевых данных с dtype=tf.int16. -
2.1.2
: Добавлена конфигурация lazy_decode.
-
Размер набора данных :
304.47 GiB
.Примеры ( tfds.as_dataframe ):
librispeech/lazy_decode
Описание конфигурации : необработанный набор аудиоданных.
Версии :
-
2.1.1
: Исправлен тип речевых данных с dtype=tf.int16. -
2.1.2
(по умолчанию): добавлена конфигурация lazy_decode.
-
Размер набора данных :
59.37 GiB
Примеры ( tfds.as_dataframe ): отсутствует.
- Описание :
LibriSpeech — это корпус из примерно 1000 часов прочитанной английской речи с частотой дискретизации 16 кГц, подготовленный Василом Панайотовым при содействии Дэниела Пови. Данные получены из прочитанных аудиокниг в рамках проекта LibriVox и тщательно сегментированы и согласованы.
Рекомендуется использовать ленивое декодирование звука для более быстрого чтения и меньшего размера набора данных: - установите библиотеку tensorflow_io
: pip install tensorflow-io
- включите ленивое декодирование: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Дополнительная документация : изучить документы с кодом
Домашняя страница : http://www.openslr.org/12
Исходный код :
tfds.datasets.librispeech.Builder
Размер загрузки :
57.14 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'dev_clean' | 2703 |
'dev_other' | 2864 |
'test_clean' | 2620 |
'test_other' | 2939 |
'train_clean100' | 28 539 |
'train_clean360' | 104 014 |
'train_other500' | 148 688 |
- Структура функции :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_главы | Тензор | int64 | ||
я бы | Тензор | нить | ||
спикер_ид | Тензор | int64 | ||
речь | Аудио | (Никто,) | int16 | |
текст | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('speech', 'text')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (конфигурация по умолчанию)
Описание конфигурации : набор данных по умолчанию.
Версии :
-
2.1.1
(по умолчанию): исправлен тип речевых данных с dtype=tf.int16. -
2.1.2
: Добавлена конфигурация lazy_decode.
-
Размер набора данных :
304.47 GiB
.Примеры ( tfds.as_dataframe ):
librispeech/lazy_decode
Описание конфигурации : необработанный набор аудиоданных.
Версии :
-
2.1.1
: Исправлен тип речевых данных с dtype=tf.int16. -
2.1.2
(по умолчанию): добавлена конфигурация lazy_decode.
-
Размер набора данных :
59.37 GiB
Примеры ( tfds.as_dataframe ): отсутствует.