वीसीटीके

विवरण :

इस CSTR VCTK कॉर्पस में 110 अंग्रेजी बोलने वालों द्वारा विभिन्न उच्चारणों के साथ बोले गए भाषण डेटा शामिल हैं। प्रत्येक वक्ता लगभग 400 वाक्यों को पढ़ता है, जो एक समाचार पत्र, इंद्रधनुष मार्ग और वाक् उच्चारण संग्रह के लिए उपयोग किए जाने वाले एक विशेष पैराग्राफ से चुने गए थे।

ध्यान दें कि हार्ड डिस्क त्रुटि के कारण 'p315' पाठ खो गया था।

अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : https://doi.org/10.7488/ds/2645
स्रोत कोड : tfds.audio.Vctk
संस्करण :
- 1.0.0 : वीसीटीके रिलीज 0.92.0।
- 1.0.1 (डिफ़ॉल्ट): भाषण डेटा प्रकार को dtype=tf.int16 के साथ ठीक करें।
डाउनलोड का आकार : 10.94 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
फ़ीचर संरचना :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	आकार	डीटाइप
	विशेषताएं डिक्ट
लहजा	क्लासलेबल		int64
लिंग	क्लासलेबल		int64
पहचान	टेन्सर		डोरी
वक्ता	क्लासलेबल		int64
भाषण	ऑडियो	(कोई भी नहीं,)	int16
मूलपाठ	मूलपाठ		डोरी

पर्यवेक्षित कुंजी ( as_supervised दस्तावेज़ देखें): ('text', 'speech')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (डिफ़ॉल्ट कॉन्फ़िगरेशन)

कॉन्फ़िग विवरण : एक सर्वदिशात्मक माइक्रोफ़ोन (DPA 4035) का उपयोग करके ऑडियो रिकॉर्ड किया गया। बहुत कम आवृत्ति शोर शामिल हैं।
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
डेटासेट का आकार : 39.87 GiB
विभाजन :

विभाजित करना	उदाहरण
`'train'`	44,455

उदाहरण ( tfds.as_dataframe ):

वीसीटीके/माइक2

कॉन्फिग विवरण : बहुत व्यापक बैंडविड्थ (सेनहाइजर एमकेएच 800) के साथ एक छोटे डायाफ्राम कंडेनसर माइक्रोफोन का उपयोग करके ऑडियो रिकॉर्ड किया गया।
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
डेटासेट का आकार : 38.86 GiB
विभाजन :

विभाजित करना	उदाहरण
`'train'`	43,873

उदाहरण ( tfds.as_dataframe ):

वीसीटीके संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.

vctk/mic1 (डिफ़ॉल्ट कॉन्फ़िगरेशन)

वीसीटीके/माइक2

वीसीटीके