- الوصف :
مجموعة بيانات كبيرة الحجم للتعرف على السماعات. تم جمع هذه البيانات من أكثر من 1251 متحدثًا ، مع أكثر من 150 ألف عينة إجمالاً. يحتوي هذا الإصدار على الجزء الصوتي من مجموعة بيانات voxceleb1.1.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
كود المصدر :
tfds.audio.Voxceleb
إصدارات :
-
1.2.1
(افتراضي): أضف الحقل youtube_id
-
حجم التحميل :
4.68 MiB
حجم مجموعة البيانات :
107.98 GiB
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعدادات الافتراضية على~/tensorflow_datasets/downloads/manual/
):
يجب أن يحتوي manual_dir على الملف vox_dev_wav.zip. توجد إرشادات تنزيل هذا الملف في http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html تتطلب مجموعة البيانات هذه التسجيل.التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 7،972 |
'train' | 134000 |
'validation' | 6670 |
- هيكل الميزة :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
'youtube_id': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
صوتي | صوتي | (لا أحد،) | int64 | |
ضع الكلمة المناسبة | ClassLabel | int64 | ||
youtube_id | نص | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('audio', 'label')
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@InProceedings{Nagrani17,
author = "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
title = "VoxCeleb: a large-scale speaker identification dataset",
booktitle = "INTERSPEECH",
year = "2017",
}