- Descripción :
Un conjunto de datos a gran escala para la identificación de hablantes. Estos datos se recopilan de más de 1251 hablantes, con más de 150 000 muestras en total. Esta versión contiene la parte de audio del conjunto de datos voxceleb1.1.
Documentación adicional : Explore en Papers With Code
Página de inicio : http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
Código fuente :
tfds.audio.Voxceleb
Versiones :
-
1.2.1
(predeterminado): Agregar campo youtube_id
-
Tamaño de la descarga :
4.68 MiB
Tamaño del conjunto de datos :
107.98 GiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
manual_dir debe contener el archivo vox_dev_wav.zip. Las instrucciones para descargar este archivo se encuentran en http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html Este conjunto de datos requiere registro.Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 7,972 |
'train' | 134.000 |
'validation' | 6,670 |
- Estructura de características :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
'youtube_id': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
audio | Audio | (Ninguna,) | int64 | |
etiqueta | Etiqueta de clase | int64 | ||
youtube_id | Texto | cuerda |
Teclas supervisadas (Ver
as_supervised
):('audio', 'label')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@InProceedings{Nagrani17,
author = "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
title = "VoxCeleb: a large-scale speaker identification dataset",
booktitle = "INTERSPEECH",
year = "2017",
}