vctk

বর্ণনা :

এই CSTR VCTK কর্পাসে বিভিন্ন উচ্চারণ সহ 110 জন ইংরেজি ভাষাভাষীদের দ্বারা উচ্চারিত বক্তৃতা ডেটা অন্তর্ভুক্ত রয়েছে। প্রতিটি বক্তা প্রায় 400টি বাক্য পড়েন, যেগুলি একটি সংবাদপত্র থেকে নির্বাচিত হয়েছিল, রংধনু প্যাসেজ এবং বক্তৃতা উচ্চারণ সংরক্ষণাগারের জন্য ব্যবহৃত একটি এলিটেশন অনুচ্ছেদ।

মনে রাখবেন যে 'p315' পাঠ্য একটি হার্ড ডিস্ক ত্রুটির কারণে হারিয়ে গেছে।

অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন
হোমপেজ : https://doi.org/10.7488/ds/2645
সোর্স কোড : tfds.audio.Vctk
সংস্করণ :
- 1.0.0 : VCTK রিলিজ 0.92.0।
- 1.0.1 (ডিফল্ট): dtype=tf.int16 দিয়ে স্পিচ ডেটা টাইপ ঠিক করুন।
ডাউনলোড সাইজ : 10.94 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বৈশিষ্ট্য গঠন :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': string,
    'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
উচ্চারণ	ক্লাসলেবেল		int64
লিঙ্গ	ক্লাসলেবেল		int64
আইডি	টেনসর		স্ট্রিং
স্পিকার	ক্লাসলেবেল		int64
বক্তৃতা	শ্রুতি	(কোনটিই নয়,)	int16
পাঠ্য	পাঠ্য		স্ট্রিং

তত্ত্বাবধানে থাকা কী (দেখুন as_supervised doc ): ('text', 'speech')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :

@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (ডিফল্ট কনফিগারেশন)

কনফিগারের বিবরণ : একটি সর্ব-দিকনির্দেশক মাইক্রোফোন (DPA 4035) ব্যবহার করে অডিও রেকর্ড করা হয়েছে। খুব কম কম্পাঙ্কের শব্দ রয়েছে।
```
      This is the same audio released in previous versions of VCTK:
      https://doi.org/10.7488/ds/1994
```
ডেটাসেটের আকার : 39.87 GiB
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	44,455

উদাহরণ ( tfds.as_dataframe ):

vctk/mic2

কনফিগারেশনের বিবরণ : খুব প্রশস্ত ব্যান্ডউইথ (Sennheiser MKH 800) সহ একটি ছোট ডায়াফ্রাম কনডেনসার মাইক্রোফোন ব্যবহার করে অডিও রেকর্ড করা হয়েছে।
```
      Two speakers, p280 and p315 had technical issues of the audio
      recordings using MKH 800.
```
ডেটাসেটের আকার : 38.86 GiB
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	43,873

উদাহরণ ( tfds.as_dataframe ):

vctk সেভ করা পৃষ্ঠা গুছিয়ে রাখতে 'সংগ্রহ' ব্যবহার করুন আপনার পছন্দ অনুযায়ী কন্টেন্ট সেভ করুন ও সঠিক বিভাগে রাখুন।

vctk/mic1 (ডিফল্ট কনফিগারেশন)

vctk/mic2

vctk