vctk

  • Açıklama :

Bu CSTR VCTK Corpus, 110 İngilizce konuşan kişi tarafından çeşitli aksanlarla dile getirilen konuşma verilerini içerir. Her konuşmacı bir gazeteden, gökkuşağı pasajından ve konuşma aksanı arşivi için kullanılan bir çıkarım paragrafından seçilen yaklaşık 400 cümleyi okur.

'p315' metninin bir sabit disk hatası nedeniyle kaybolduğunu unutmayın.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
Aksan SınıfEtiketi int64
Cinsiyet SınıfEtiketi int64
İD tensör sicim
konuşmacı SınıfEtiketi int64
konuşma Ses (Hiçbiri,) int16
Metin Metin sicim
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Çok yönlü mikrofon (DPA 4035) kullanılarak kaydedilen ses. Çok düşük frekanslı sesler içerir.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • Veri kümesi boyutu : 39.87 GiB

  • bölmeler :

Bölmek örnekler
'train' 44.455

vctk/mic2

  • Yapılandırma açıklaması : Çok geniş bant genişliğine (Sennheiser MKH 800) sahip küçük diyaframlı yoğunlaştırıcı mikrofon kullanılarak kaydedilen ses.

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • Veri kümesi boyutu : 38.86 GiB

  • bölmeler :

Bölmek örnekler
'train' 43.873