- विवरण :
इस CSTR VCTK कॉर्पस में 110 अंग्रेजी बोलने वालों द्वारा विभिन्न उच्चारणों के साथ बोले गए भाषण डेटा शामिल हैं। प्रत्येक वक्ता लगभग 400 वाक्यों को पढ़ता है, जो एक समाचार पत्र, इंद्रधनुष मार्ग और वाक् उच्चारण संग्रह के लिए उपयोग किए जाने वाले एक विशेष पैराग्राफ से चुने गए थे।
ध्यान दें कि हार्ड डिस्क त्रुटि के कारण 'p315' पाठ खो गया था।
होमपेज : https://doi.org/10.7488/ds/2645
स्रोत कोड :
tfds.audio.Vctk
संस्करण :
-
1.0.0
: वीसीटीके रिलीज 0.92.0। -
1.0.1
(डिफ़ॉल्ट): भाषण डेटा प्रकार को dtype=tf.int16 के साथ ठीक करें।
-
डाउनलोड का आकार :
10.94 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
फ़ीचर संरचना :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': string,
'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
लहजा | क्लासलेबल | int64 | ||
लिंग | क्लासलेबल | int64 | ||
पहचान | टेन्सर | डोरी | ||
वक्ता | क्लासलेबल | int64 | ||
भाषण | ऑडियो | (कोई भी नहीं,) | int16 | |
मूलपाठ | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('text', 'speech')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
vctk/mic1 (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िग विवरण : एक सर्वदिशात्मक माइक्रोफ़ोन (DPA 4035) का उपयोग करके ऑडियो रिकॉर्ड किया गया। बहुत कम आवृत्ति शोर शामिल हैं।
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994
डेटासेट का आकार :
39.87 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 44,455 |
- उदाहरण ( tfds.as_dataframe ):
वीसीटीके/माइक2
कॉन्फिग विवरण : बहुत व्यापक बैंडविड्थ (सेनहाइजर एमकेएच 800) के साथ एक छोटे डायाफ्राम कंडेनसर माइक्रोफोन का उपयोग करके ऑडियो रिकॉर्ड किया गया।
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.
डेटासेट का आकार :
38.86 GiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'train' | 43,873 |
- उदाहरण ( tfds.as_dataframe ):