либриспич

  • Описание :

LibriSpeech — это корпус из примерно 1000 часов прочитанной английской речи с частотой дискретизации 16 кГц, подготовленный Василом Панайотовым при содействии Дэниела Пови. Данные получены из прочитанных аудиокниг в рамках проекта LibriVox и тщательно сегментированы и согласованы.

Рекомендуется использовать ленивое декодирование звука для более быстрого чтения и меньшего размера набора данных: - установите библиотеку tensorflow_io : pip install tensorflow-io - включите ленивое декодирование: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Расколоть Примеры
'dev_clean' 2703
'dev_other' 2864
'test_clean' 2620
'test_other' 2939
'train_clean100' 28 539
'train_clean360' 104 014
'train_other500' 148 688
  • Структура функции :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
id_главы Тензор int64
я бы Тензор нить
спикер_ид Тензор int64
речь Аудио (Никто,) int16
текст Текст нить
  • Контролируемые ключи (см. as_supervised doc ): ('speech', 'text')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Цитата :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (конфигурация по умолчанию)

  • Описание конфигурации : набор данных по умолчанию.

  • Версии :

    • 2.1.1 (по умолчанию): исправлен тип речевых данных с dtype=tf.int16.
    • 2.1.2 : Добавлена ​​конфигурация lazy_decode.
  • Размер набора данных : 304.47 GiB .

  • Примеры ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Описание конфигурации : необработанный набор аудиоданных.

  • Версии :

    • 2.1.1 : Исправлен тип речевых данных с dtype=tf.int16.
    • 2.1.2 (по умолчанию): добавлена ​​конфигурация lazy_decode.
  • Размер набора данных : 59.37 GiB

  • Примеры ( tfds.as_dataframe ): отсутствует.

,

  • Описание :

LibriSpeech — это корпус из примерно 1000 часов прочитанной английской речи с частотой дискретизации 16 кГц, подготовленный Василом Панайотовым при содействии Дэниела Пови. Данные получены из прочитанных аудиокниг в рамках проекта LibriVox и тщательно сегментированы и согласованы.

Рекомендуется использовать ленивое декодирование звука для более быстрого чтения и меньшего размера набора данных: - установите библиотеку tensorflow_io : pip install tensorflow-io - включите ленивое декодирование: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Расколоть Примеры
'dev_clean' 2703
'dev_other' 2864
'test_clean' 2620
'test_other' 2939
'train_clean100' 28 539
'train_clean360' 104 014
'train_other500' 148 688
  • Структура функции :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
id_главы Тензор int64
я бы Тензор нить
спикер_ид Тензор int64
речь Аудио (Никто,) int16
текст Текст нить
  • Контролируемые ключи (см. as_supervised doc ): ('speech', 'text')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Цитата :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (конфигурация по умолчанию)

  • Описание конфигурации : набор данных по умолчанию.

  • Версии :

    • 2.1.1 (по умолчанию): исправлен тип речевых данных с dtype=tf.int16.
    • 2.1.2 : Добавлена ​​конфигурация lazy_decode.
  • Размер набора данных : 304.47 GiB .

  • Примеры ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Описание конфигурации : необработанный набор аудиоданных.

  • Версии :

    • 2.1.1 : Исправлен тип речевых данных с dtype=tf.int16.
    • 2.1.2 (по умолчанию): добавлена ​​конфигурация lazy_decode.
  • Размер набора данных : 59.37 GiB

  • Примеры ( tfds.as_dataframe ): отсутствует.