vctk

Descrizione :

Questo Corpus CSTR VCTK include dati vocali pronunciati da 110 anglofoni con vari accenti. Ogni oratore legge ad alta voce circa 400 frasi, che sono state selezionate da un giornale, il passaggio arcobaleno e un paragrafo di sollecitazione utilizzato per l'archivio dell'accento vocale.

Si noti che il testo "p315" è andato perso a causa di un errore del disco rigido.

Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://doi.org/10.7488/ds/2645
Codice sorgente : tfds.audio.Vctk
Versioni :
- 1.0.0 : Versione VCTK 0.92.0.
- 1.0.1 (predefinito): correggi il tipo di dati vocali con dtype=tf.int16.
Dimensioni del download : 10.94 GiB
Cache automatica ( documentazione ): No
Struttura delle caratteristiche :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
accento	ClassLabel		int64
Genere	ClassLabel		int64
id	Tensore		corda
altoparlante	ClassLabel		int64
discorso	Audio	(Nessuno,)	int16
testo	Testo		corda

Tasti supervisionati (Vedi as_supervised doc ): ('text', 'speech')
Figura ( tfds.show_examples ): non supportato.
Citazione :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (configurazione predefinita)

Descrizione configurazione : Audio registrato utilizzando un microfono omnidirezionale (DPA 4035). Contiene rumori a frequenza molto bassa.
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
Dimensione del set di dati: 39.87 GiB
Divisioni :

Diviso	Esempi
`'train'`	44.455

Esempi ( tfds.as_dataframe ):

vctk/mic2

Descrizione della configurazione : Audio registrato utilizzando un microfono a condensatore a diaframma piccolo con larghezza di banda molto ampia (Sennheiser MKH 800).
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
Dimensione del set di dati: 38.86 GiB
Divisioni :

Diviso	Esempi
`'train'`	43.873

Esempi ( tfds.as_dataframe ):

vctk Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

vctk/mic1 (configurazione predefinita)

vctk/mic2

vctk