Conozca lo último en aprendizaje automático, IA generativa y más en el Simposio WiML 2023.

Se usó la API de Cloud Translation para traducir esta página.

vctk

Descripción :

Este CSTR VCTK Corpus incluye datos de voz pronunciados por 110 hablantes de inglés con varios acentos. Cada hablante lee alrededor de 400 oraciones, que fueron seleccionadas de un periódico, el pasaje del arcoíris y un párrafo de elicitación utilizado para el archivo de acentos del habla.

Tenga en cuenta que el texto 'p315' se perdió debido a un error en el disco duro.

Documentación adicional : Explore en Papers With Code
Página de inicio: https://doi.org/10.7488/ds/2645
Código fuente : tfds.audio.Vctk
Versiones :
- 1.0.0 : versión VCTK 0.92.0.
- 1.0.1 (predeterminado): corrige el tipo de datos de voz con dtype=tf.int16.
Tamaño de descarga : 10.94 GiB
Almacenamiento automático en caché ( documentación ): No
Estructura de características :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
acento	Etiqueta de clase		int64
género	Etiqueta de clase		int64
identificación	Tensor		cuerda
altavoz	Etiqueta de clase		int64
discurso	Audio	(Ninguna,)	int16
texto	Texto		cuerda

Teclas supervisadas (ver as_supervised doc ): ('text', 'speech')
Figura ( tfds.show_examples ): no compatible.
Cita :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (configuración predeterminada)

Descripción de la configuración : audio grabado con un micrófono omnidireccional (DPA 4035). Contiene ruidos de muy baja frecuencia.
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
Tamaño del conjunto de datos : 39.87 GiB
Divisiones :

Separar	Ejemplos
`'train'`	44,455

Ejemplos ( tfds.as_dataframe ):

vctk/mic2

Descripción de la configuración : audio grabado con un micrófono de condensador de diafragma pequeño con un ancho de banda muy amplio (Sennheiser MKH 800).
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
Tamaño del conjunto de datos : 38.86 GiB
Divisiones :

Separar	Ejemplos
`'train'`	43,873

Ejemplos ( tfds.as_dataframe ):

vctk Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

vctk/mic1 (configuración predeterminada)

vctk/mic2

vctk