- Opis :
LibriSpeech to zbiór około 1000 godzin odczytanej mowy angielskiej z częstotliwością próbkowania 16 kHz, przygotowany przez Vassila Panayotova przy pomocy Daniela Poveya. Dane pochodzą z przeczytanych audiobooków z projektu LibriVox i zostały starannie posegmentowane i dopasowane.
Zaleca się używanie leniwego dekodowania audio w celu szybszego odczytu i mniejszego rozmiaru zbioru danych: - zainstaluj bibliotekę tensorflow_io
: pip install tensorflow-io
- włącz leniwe dekodowanie: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Dodatkowa dokumentacja : Eksploruj w dokumentach z kodem
Strona główna : http://www.openslr.org/12
Kod źródłowy :
tfds.datasets.librispeech.Builder
Rozmiar pobierania :
57.14 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'dev_clean' | 2703 |
'dev_other' | 2864 |
'test_clean' | 2620 |
'test_other' | 2939 |
'train_clean100' | 28539 |
'train_clean360' | 104014 |
'train_other500' | 148 688 |
- Struktura funkcji :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
identyfikator_rozdziału | Napinacz | int64 | ||
id | Napinacz | smyczkowy | ||
identyfikator_głośnika | Napinacz | int64 | ||
przemówienie | Audio | (Nic,) | int16 | |
tekst | Tekst | smyczkowy |
Nadzorowane klucze (zobacz
as_supervised
dokument ):('speech', 'text')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (konfiguracja domyślna)
Opis konfiguracji : Domyślny zestaw danych.
Wersje :
-
2.1.1
(domyślnie): Napraw typ danych mowy za pomocą dtype=tf.int16. -
2.1.2
: Dodaj konfigurację „lazy_decode”.
-
Rozmiar zbioru danych :
304.47 GiB
Przykłady ( tfds.as_dataframe ):
librispeech/lazy_decode
Opis konfiguracji : Surowy zestaw danych audio.
Wersje :
-
2.1.1
: Napraw typ danych mowy za pomocą dtype=tf.int16. -
2.1.2
(domyślnie): Dodaj konfigurację „lazy_decode”.
-
Rozmiar zbioru danych :
59.37 GiB
Przykłady ( tfds.as_dataframe ):