- Açıklama :
Bu CSTR VCTK Corpus, 110 İngilizce konuşan kişi tarafından çeşitli aksanlarla dile getirilen konuşma verilerini içerir. Her konuşmacı bir gazeteden, gökkuşağı pasajından ve konuşma aksanı arşivi için kullanılan bir çıkarım paragrafından seçilen yaklaşık 400 cümleyi okur.
'p315' metninin bir sabit disk hatası nedeniyle kaybolduğunu unutmayın.
Anasayfa : https://doi.org/10.7488/ds/2645
Kaynak kodu :
tfds.audio.Vctk
sürümler :
-
1.0.0
: VCTK sürümü 0.92.0. -
1.0.1
(varsayılan): Konuşma veri türünü dtype=tf.int16 ile düzeltin.
-
İndirme boyutu :
10.94 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
Özellik yapısı :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': string,
'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
Aksan | SınıfEtiketi | int64 | ||
Cinsiyet | SınıfEtiketi | int64 | ||
İD | tensör | sicim | ||
konuşmacı | SınıfEtiketi | int64 | ||
konuşma | Ses | (Hiçbiri,) | int16 | |
Metin | Metin | sicim |
Denetlenen tuşlar (Bkz
as_supervised
doc ):('text', 'speech')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
vctk/mic1 (varsayılan yapılandırma)
Yapılandırma açıklaması : Çok yönlü mikrofon (DPA 4035) kullanılarak kaydedilen ses. Çok düşük frekanslı sesler içerir.
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994
Veri kümesi boyutu :
39.87 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 44.455 |
- Örnekler ( tfds.as_dataframe ):
vctk/mic2
Yapılandırma açıklaması : Çok geniş bant genişliğine (Sennheiser MKH 800) sahip küçük diyaframlı yoğunlaştırıcı mikrofon kullanılarak kaydedilen ses.
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.
Veri kümesi boyutu :
38.86 GiB
bölmeler :
Bölmek | örnekler |
---|---|
'train' | 43.873 |
- Örnekler ( tfds.as_dataframe ):