- বর্ণনা :
এই CSTR VCTK কর্পাসে বিভিন্ন উচ্চারণ সহ 110 জন ইংরেজি ভাষাভাষীদের দ্বারা উচ্চারিত বক্তৃতা ডেটা অন্তর্ভুক্ত রয়েছে। প্রতিটি বক্তা প্রায় 400টি বাক্য পড়েন, যেগুলি একটি সংবাদপত্র থেকে নির্বাচিত হয়েছিল, রংধনু প্যাসেজ এবং বক্তৃতা উচ্চারণ সংরক্ষণাগারের জন্য ব্যবহৃত একটি এলিটেশন অনুচ্ছেদ।
মনে রাখবেন যে 'p315' পাঠ্য একটি হার্ড ডিস্ক ত্রুটির কারণে হারিয়ে গেছে।
হোমপেজ : https://doi.org/10.7488/ds/2645
সোর্স কোড :
tfds.audio.Vctk
সংস্করণ :
-
1.0.0
: VCTK রিলিজ 0.92.0। -
1.0.1
(ডিফল্ট): dtype=tf.int16 দিয়ে স্পিচ ডেটা টাইপ ঠিক করুন।
-
ডাউনলোড সাইজ :
10.94 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বৈশিষ্ট্য গঠন :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': string,
'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
উচ্চারণ | ক্লাসলেবেল | int64 | ||
লিঙ্গ | ক্লাসলেবেল | int64 | ||
আইডি | টেনসর | স্ট্রিং | ||
স্পিকার | ক্লাসলেবেল | int64 | ||
বক্তৃতা | শ্রুতি | (কোনটিই নয়,) | int16 | |
পাঠ্য | পাঠ্য | স্ট্রিং |
তত্ত্বাবধানে থাকা কী (দেখুন
as_supervised
doc ):('text', 'speech')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
vctk/mic1 (ডিফল্ট কনফিগারেশন)
কনফিগারের বিবরণ : একটি সর্ব-দিকনির্দেশক মাইক্রোফোন (DPA 4035) ব্যবহার করে অডিও রেকর্ড করা হয়েছে। খুব কম কম্পাঙ্কের শব্দ রয়েছে।
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994
ডেটাসেটের আকার :
39.87 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 44,455 |
- উদাহরণ ( tfds.as_dataframe ):
vctk/mic2
কনফিগারেশনের বিবরণ : খুব প্রশস্ত ব্যান্ডউইথ (Sennheiser MKH 800) সহ একটি ছোট ডায়াফ্রাম কনডেনসার মাইক্রোফোন ব্যবহার করে অডিও রেকর্ড করা হয়েছে।
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.
ডেটাসেটের আকার :
38.86 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 43,873 |
- উদাহরণ ( tfds.as_dataframe ):