वोक्ससेलेब

  • विवरण :

वक्ता की पहचान के लिए एक बड़े पैमाने पर डेटासेट। यह डेटा कुल 150k से अधिक नमूनों के साथ 1,251 से अधिक वक्ताओं से एकत्र किया गया है। इस रिलीज़ में voxceleb1.1 डेटासेट का ऑडियो हिस्सा है।

  • अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें

  • होमपेज : http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html

  • स्रोत कोड : tfds.audio.Voxceleb

  • संस्करण :

    • 1.2.1 (डिफ़ॉल्ट): youtube_id फ़ील्ड जोड़ें
  • डाउनलोड आकार : 4.68 MiB

  • डेटासेट का आकार : 107.98 GiB

  • मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:
    मैन्युअल_डीआईआर में फ़ाइल vox_dev_wav.zip होनी चाहिए। इस फ़ाइल को डाउनलोड करने के निर्देश http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html में पाए जाते हैं इस डेटासेट को पंजीकरण की आवश्यकता है।

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 7,972
'train' 134,000
'validation' 6,670
  • फ़ीचर संरचना :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1252),
    'youtube_id': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
ऑडियो ऑडियो (कोई भी नहीं,) int64
लेबल क्लासलेबल int64
youtube_id मूलपाठ डोरी
  • उद्धरण :
@InProceedings{Nagrani17,
    author       = "Nagrani, A. and Chung, J.~S. and Zisserman, A.",
    title        = "VoxCeleb: a large-scale speaker identification dataset",
    booktitle    = "INTERSPEECH",
    year         = "2017",
}