vctk

Açıklama :

Bu CSTR VCTK Corpus, 110 İngilizce konuşan kişi tarafından çeşitli aksanlarla dile getirilen konuşma verilerini içerir. Her konuşmacı bir gazeteden, gökkuşağı pasajından ve konuşma aksanı arşivi için kullanılan bir çıkarım paragrafından seçilen yaklaşık 400 cümleyi okur.

'p315' metninin bir sabit disk hatası nedeniyle kaybolduğunu unutmayın.

Ek Belgeler : Belgeleri Keşfedin
Anasayfa : https://doi.org/10.7488/ds/2645
Kaynak kodu : tfds.audio.Vctk
sürümler :
- 1.0.0 : VCTK sürümü 0.92.0.
- 1.0.1 (varsayılan): Konuşma veri türünü dtype=tf.int16 ile düzeltin.
İndirme boyutu : 10.94 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
Özellik yapısı :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

Özellik belgeleri :

Özellik	Sınıf	Şekil	Dtipi
	ÖzelliklerDict
Aksan	SınıfEtiketi		int64
Cinsiyet	SınıfEtiketi		int64
İD	tensör		sicim
konuşmacı	SınıfEtiketi		int64
konuşma	Ses	(Hiçbiri,)	int16
Metin	Metin		sicim

Denetlenen tuşlar (Bkz as_supervised doc ): ('text', 'speech')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (varsayılan yapılandırma)

Yapılandırma açıklaması : Çok yönlü mikrofon (DPA 4035) kullanılarak kaydedilen ses. Çok düşük frekanslı sesler içerir.
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
Veri kümesi boyutu : 39.87 GiB
bölmeler :

Bölmek	örnekler
`'train'`	44.455

Örnekler ( tfds.as_dataframe ):

vctk/mic2

Yapılandırma açıklaması : Çok geniş bant genişliğine (Sennheiser MKH 800) sahip küçük diyaframlı yoğunlaştırıcı mikrofon kullanılarak kaydedilen ses.
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
Veri kümesi boyutu : 38.86 GiB
bölmeler :

Bölmek	örnekler
`'train'`	43.873

Örnekler ( tfds.as_dataframe ):

vctk Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

vctk/mic1 (varsayılan yapılandırma)

vctk/mic2

vctk