- Descriptif :
Il s'agit d'un ensemble de données vocales du domaine public composé de 13 100 courts extraits audio d'un seul locuteur lisant des passages de 7 livres de non-fiction. Une transcription est fournie pour chaque clip. Les clips varient en longueur de 1 à 10 secondes et ont une durée totale d'environ 24 heures.
Les textes ont été publiés entre 1884 et 1964, et sont dans le domaine public. L'audio a été enregistré en 2016-17 par le projet LibriVox et est également dans le domaine public.
Documentation complémentaire : Explorer sur Papers With Code
Page d'accueil : https://keithito.com/LJ-Speech-Dataset/
Code source :
tfds.datasets.ljspeech.Builder
Versions :
-
1.1.1
(par défaut) : correction du type de données vocales avec dtype=tf.int16.
-
Taille du téléchargement :
2.56 GiB
Taille du jeu de données :
10.73 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 13 100 |
- Structure des fonctionnalités :
FeaturesDict({
'id': string,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
'text_normalized': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
identifiant | Tenseur | chaîne de caractères | ||
parole | l'audio | (Aucun,) | int16 | |
texte | Texte | chaîne de caractères | ||
text_normalized | Texte | chaîne de caractères |
Touches supervisées (Voir
as_supervised
doc ):('text_normalized', 'speech')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@misc{ljspeech17,
author = {Keith Ito},
title = {The LJ Speech Dataset},
howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
year = 2017
}