- Descriptif :
LibriSpeech est un corpus d'environ 1000 heures de parole en anglais lu avec un taux d'échantillonnage de 16 kHz, préparé par Vassil Panayotov avec l'aide de Daniel Povey. Les données sont dérivées de livres audio lus du projet LibriVox et ont été soigneusement segmentées et alignées.
Il est recommandé d'utiliser le décodage audio paresseux pour une lecture plus rapide et une taille de jeu de données plus petite : - installez la bibliothèque tensorflow_io
: pip install tensorflow-io
- activez le décodage paresseux : tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Documentation complémentaire : Explorer sur Papers With Code
Page d'accueil : http://www.openslr.org/12
Code source :
tfds.datasets.librispeech.Builder
Taille du téléchargement :
57.14 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'dev_clean' | 2 703 |
'dev_other' | 2 864 |
'test_clean' | 2 620 |
'test_other' | 2 939 |
'train_clean100' | 28 539 |
'train_clean360' | 104 014 |
'train_other500' | 148 688 |
- Structure des fonctionnalités :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
chapitre_id | Tenseur | int64 | ||
identifiant | Tenseur | chaîne de caractères | ||
id_haut-parleur | Tenseur | int64 | ||
parole | l'audio | (Aucun,) | int16 | |
texte | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('speech', 'text')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (configuration par défaut)
Description de la configuration : jeu de données par défaut.
Versions :
-
2.1.1
(par défaut) : Correction du type de données vocales avec dtype=tf.int16. -
2.1.2
: Ajout de la configuration 'lazy_decode'.
-
Taille du jeu de données :
304.47 GiB
Exemples ( tfds.as_dataframe ):
librispeech/lazy_decode
Description de la configuration : ensemble de données audio brutes.
Versions :
-
2.1.1
: Correction du type de données vocales avec dtype=tf.int16. -
2.1.2
(par défaut) : Ajout de la configuration 'lazy_decode'.
-
Taille du jeu de données :
59.37 GiB
Exemples ( tfds.as_dataframe ) : Manquant.
- Descriptif :
LibriSpeech est un corpus d'environ 1000 heures de parole en anglais lu avec un taux d'échantillonnage de 16 kHz, préparé par Vassil Panayotov avec l'aide de Daniel Povey. Les données sont dérivées de livres audio lus du projet LibriVox et ont été soigneusement segmentées et alignées.
Il est recommandé d'utiliser le décodage audio paresseux pour une lecture plus rapide et une taille de jeu de données plus petite : - installez la bibliothèque tensorflow_io
: pip install tensorflow-io
- activez le décodage paresseux : tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Documentation complémentaire : Explorer sur Papers With Code
Page d'accueil : http://www.openslr.org/12
Code source :
tfds.datasets.librispeech.Builder
Taille du téléchargement :
57.14 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'dev_clean' | 2 703 |
'dev_other' | 2 864 |
'test_clean' | 2 620 |
'test_other' | 2 939 |
'train_clean100' | 28 539 |
'train_clean360' | 104 014 |
'train_other500' | 148 688 |
- Structure des fonctionnalités :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
chapitre_id | Tenseur | int64 | ||
identifiant | Tenseur | chaîne de caractères | ||
id_haut-parleur | Tenseur | int64 | ||
parole | l'audio | (Aucun,) | int16 | |
texte | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('speech', 'text')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (configuration par défaut)
Description de la configuration : jeu de données par défaut.
Versions :
-
2.1.1
(par défaut) : Correction du type de données vocales avec dtype=tf.int16. -
2.1.2
: Ajout de la configuration 'lazy_decode'.
-
Taille du jeu de données :
304.47 GiB
Exemples ( tfds.as_dataframe ):
librispeech/lazy_decode
Description de la configuration : ensemble de données audio brutes.
Versions :
-
2.1.1
: Correction du type de données vocales avec dtype=tf.int16. -
2.1.2
(par défaut) : Ajout de la configuration 'lazy_decode'.
-
Taille du jeu de données :
59.37 GiB
Exemples ( tfds.as_dataframe ) : Manquant.