- विवरण :
बोले गए शब्दों का एक ऑडियो डेटासेट जिसे कीवर्ड स्पॉटिंग सिस्टम को प्रशिक्षित करने और मूल्यांकन करने में मदद करने के लिए डिज़ाइन किया गया है। इसका प्राथमिक लक्ष्य छोटे मॉडल बनाने और परीक्षण करने का एक तरीका प्रदान करना है जो पृष्ठभूमि शोर या असंबंधित भाषण से यथासंभव कुछ झूठी सकारात्मकता के साथ, दस लक्ष्य शब्दों के सेट से एक शब्द बोले जाने पर पता लगाता है। ध्यान दें कि ट्रेन और सत्यापन सेट में, "अज्ञात" लेबल लक्षित शब्दों या पृष्ठभूमि शोर के लेबल से कहीं अधिक प्रचलित है। रिलीज़ संस्करण से एक अंतर साइलेंट सेगमेंट की हैंडलिंग है। जबकि परीक्षण सेट में मौन खंड नियमित 1 सेकंड की फाइलें हैं, प्रशिक्षण में उन्हें "background_noise" फ़ोल्डर के तहत लंबे खंडों के रूप में प्रदान किया जाता है। यहां हम इन पृष्ठभूमि शोर को 1 सेकंड क्लिप में विभाजित करते हैं, और सत्यापन सेट के लिए फ़ाइलों में से एक को भी रखते हैं।
होमपेज : https://arxiv.org/abs/1804.03209
स्रोत कोड :
tfds.datasets.speech_commands.Builder
संस्करण :
-
0.0.3
(डिफ़ॉल्ट): ऑडियो डेटा प्रकार को dtype=tf.int16 के साथ ठीक करें।
-
डाउनलोड आकार :
2.37 GiB
डेटासेट का आकार :
8.17 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 4,890 |
'train' | 85,511 |
'validation' | 10,102 |
- फ़ीचर संरचना :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
ऑडियो | ऑडियो | (कोई भी नहीं,) | int16 | |
लेबल | क्लासलेबल | int64 |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('audio', 'label')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}