- विवरण :
वक्ता की पहचान के लिए एक बड़े पैमाने पर डेटासेट। यह डेटा कुल 150k से अधिक नमूनों के साथ 1,251 से अधिक वक्ताओं से एकत्र किया गया है। इस रिलीज़ में voxceleb1.1 डेटासेट का ऑडियो हिस्सा है।
होमपेज : http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
स्रोत कोड :
tfds.audio.Voxceleb
संस्करण :
-
1.2.1
(डिफ़ॉल्ट): youtube_id फ़ील्ड जोड़ें
-
डाउनलोड आकार :
4.68 MiB
डेटासेट का आकार :
107.98 GiB
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir
(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/
) में डाउनलोड करना होगा:
मैन्युअल_डीआईआर में फ़ाइल vox_dev_wav.zip होनी चाहिए। इस फ़ाइल को डाउनलोड करने के निर्देश http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html में पाए जाते हैं इस डेटासेट को पंजीकरण की आवश्यकता है।ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 7,972 |
'train' | 134,000 |
'validation' | 6,670 |
- फ़ीचर संरचना :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
'youtube_id': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
ऑडियो | ऑडियो | (कोई भी नहीं,) | int64 | |
लेबल | क्लासलेबल | int64 | ||
youtube_id | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('audio', 'label')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@InProceedings{Nagrani17,
author = "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
title = "VoxCeleb: a large-scale speaker identification dataset",
booktitle = "INTERSPEECH",
year = "2017",
}