- الوصف :
تشتمل مجموعة CSTR VCTK Corpus على بيانات كلام ينطق بها 110 متحدثًا باللغة الإنجليزية بلهجات مختلفة. يقرأ كل متحدث حوالي 400 جملة تم اختيارها من إحدى الصحف ومقطع قوس قزح وفقرة الاستنباط المستخدمة في أرشيف لهجة الكلام.
لاحظ أنه تم فقد النص "p315" بسبب خطأ في القرص الثابت.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://doi.org/10.7488/ds/2645
كود المصدر :
tfds.audio.Vctk
إصدارات :
-
1.0.0
: إصدار VCTK 0.92.0. -
1.0.1
(افتراضي): إصلاح نوع بيانات الكلام باستخدام dtype = tf.int16.
-
حجم التحميل :
10.94 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
هيكل الميزة :
FeaturesDict({
'accent': ClassLabel(shape=(), dtype=int64, num_classes=13),
'gender': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': string,
'speaker': ClassLabel(shape=(), dtype=int64, num_classes=110),
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
لهجة | ClassLabel | int64 | ||
جنس | ClassLabel | int64 | ||
هوية شخصية | موتر | سلسلة | ||
مكبر الصوت | ClassLabel | int64 | ||
خطاب | صوتي | (لا أحد،) | int16 | |
نص | نص | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('text', 'speech')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@misc{yamagishi2019vctk,
author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
year=2019,
doi={10.7488/ds/2645},
}
vctk / mic1 (التكوين الافتراضي)
وصف التكوين : تسجيل الصوت باستخدام ميكروفون متعدد الاتجاهات (DPA 4035). يحتوي على ضوضاء منخفضة التردد.
This is the same audio released in previous versions of VCTK: https://doi.org/10.7488/ds/1994
حجم مجموعة البيانات :
39.87 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 44455 |
- أمثلة ( tfds.as_dataframe ):
vctk / ميكروفون 2
وصف التكوين : تسجيل صوتي باستخدام ميكروفون مكثف صغير الغشاء بنطاق ترددي عريض للغاية (Sennheiser MKH 800).
Two speakers, p280 and p315 had technical issues of the audio recordings using MKH 800.
حجم مجموعة البيانات :
38.86 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 43873 |
- أمثلة ( tfds.as_dataframe ):