- Descripción :
Este CSTR VCTK Corpus incluye datos de voz pronunciados por 110 hablantes de inglés con varios acentos. Cada hablante lee alrededor de 400 oraciones, que fueron seleccionadas de un periódico, el pasaje del arcoíris y un párrafo de elicitación utilizado para el archivo de acentos del habla.
Tenga en cuenta que el texto 'p315' se perdió debido a un error en el disco duro.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://doi.org/10.7488/ds/2645
Código fuente :
tfds.audio.Vctk
Versiones :
-
1.0.0
: versión VCTK 0.92.0. -
1.0.1
(predeterminado): corrige el tipo de datos de voz con dtype=tf.int16.
-
Tamaño de descarga :
10.94 GiB
Almacenamiento automático en caché ( documentación ): No
Estructura de características :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': string,
'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
acento | Etiqueta de clase | int64 | ||
género | Etiqueta de clase | int64 | ||
identificación | Tensor | cuerda | ||
altavoz | Etiqueta de clase | int64 | ||
discurso | Audio | (Ninguna,) | int16 | |
texto | Texto | cuerda |
Teclas supervisadas (ver
as_supervised
doc ):('text', 'speech')
Figura ( tfds.show_examples ): no compatible.
Cita :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
vctk/mic1 (configuración predeterminada)
Descripción de la configuración : audio grabado con un micrófono omnidireccional (DPA 4035). Contiene ruidos de muy baja frecuencia.
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994
Tamaño del conjunto de datos :
39.87 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 44,455 |
- Ejemplos ( tfds.as_dataframe ):
vctk/mic2
Descripción de la configuración : audio grabado con un micrófono de condensador de diafragma pequeño con un ancho de banda muy amplio (Sennheiser MKH 800).
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.
Tamaño del conjunto de datos :
38.86 GiB
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 43,873 |
- Ejemplos ( tfds.as_dataframe ):