vctk

  • Descriptif :

Ce corpus CSTR VCTK comprend des données vocales prononcées par 110 anglophones avec différents accents. Chaque locuteur lit environ 400 phrases, qui ont été sélectionnées à partir d'un journal, du passage arc-en-ciel et d'un paragraphe d'élicitation utilisé pour les archives de l'accent de la parole.

Notez que le texte 'p315' a été perdu en raison d'une erreur de disque dur.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
accent Étiquette de classe int64
le genre Étiquette de classe int64
identifiant Tenseur chaîne de caractères
conférencier Étiquette de classe int64
parole l'audio (Aucun,) int16
texte Texte chaîne de caractères
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (configuration par défaut)

  • Description de la configuration : Audio enregistré à l'aide d'un microphone omnidirectionnel (DPA 4035). Contient des bruits de très basse fréquence.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • Taille du jeu de données : 39.87 GiB

  • Fractionnements :

Diviser Exemples
'train' 44 455

vctk/mic2

  • Description de la configuration : Audio enregistré à l'aide d'un microphone à condensateur à petit diaphragme et à très large bande passante (Sennheiser MKH 800).

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • Taille du jeu de données : 38.86 GiB

  • Fractionnements :

Diviser Exemples
'train' 43 873