vctk

  • বর্ণনা :

এই CSTR VCTK কর্পাসে বিভিন্ন উচ্চারণ সহ 110 জন ইংরেজি ভাষাভাষীদের দ্বারা উচ্চারিত বক্তৃতা ডেটা অন্তর্ভুক্ত রয়েছে। প্রতিটি বক্তা প্রায় 400টি বাক্য পড়েন, যেগুলি একটি সংবাদপত্র থেকে নির্বাচিত হয়েছিল, রংধনু প্যাসেজ এবং বক্তৃতা উচ্চারণ সংরক্ষণাগারের জন্য ব্যবহৃত একটি এলিটেশন অনুচ্ছেদ।

মনে রাখবেন যে 'p315' পাঠ্য একটি হার্ড ডিস্ক ত্রুটির কারণে হারিয়ে গেছে।

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
উচ্চারণ ক্লাসলেবেল int64
লিঙ্গ ক্লাসলেবেল int64
আইডি টেনসর স্ট্রিং
স্পিকার ক্লাসলেবেল int64
বক্তৃতা শ্রুতি (কোনটিই নয়,) int16
পাঠ্য পাঠ্য স্ট্রিং
  • তত্ত্বাবধানে থাকা কী (দেখুন as_supervised doc ): ('text', 'speech')

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (ডিফল্ট কনফিগারেশন)

  • কনফিগারের বিবরণ : একটি সর্ব-দিকনির্দেশক মাইক্রোফোন (DPA 4035) ব্যবহার করে অডিও রেকর্ড করা হয়েছে। খুব কম কম্পাঙ্কের শব্দ রয়েছে।

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • ডেটাসেটের আকার : 39.87 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 44,455

vctk/mic2

  • কনফিগারেশনের বিবরণ : খুব প্রশস্ত ব্যান্ডউইথ (Sennheiser MKH 800) সহ একটি ছোট ডায়াফ্রাম কনডেনসার মাইক্রোফোন ব্যবহার করে অডিও রেকর্ড করা হয়েছে।

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • ডেটাসেটের আকার : 38.86 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 43,873