लिब्रिस्पीच

  • विवरण :

लिब्रीस्पीच 16 किलोहर्ट्ज़ की सैंपलिंग दर के साथ लगभग 1000 घंटों के पढ़े जाने वाले अंग्रेजी भाषण का संग्रह है, जिसे वासिल पानायोटोव ने डेनियल पोवे की सहायता से तैयार किया है। डेटा को लिब्रीवॉक्स प्रोजेक्ट से पढ़ी गई ऑडियोबुक से प्राप्त किया गया है, और इसे सावधानीपूर्वक खंडित और संरेखित किया गया है।

तेजी से पढ़ने और छोटे डेटासेट आकार के लिए आलसी ऑडियो डिकोडिंग का उपयोग करने की अनुशंसा की जाती है: - tensorflow_io लाइब्रेरी स्थापित करें: pip install tensorflow-io करें - आलसी डिकोडिंग सक्षम करें: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

विभाजित करना उदाहरण
'dev_clean' 2,703
'dev_other' 2,864
'test_clean' 2,620
'test_other' 2,939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • फ़ीचर संरचना :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
अध्याय_आईडी टेन्सर int64
पहचान टेन्सर डोरी
स्पीकर_आईडी टेन्सर int64
भाषण ऑडियो (कोई भी नहीं,) int16
मूलपाठ मूलपाठ डोरी
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): ('speech', 'text')

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/डिफ़ॉल्ट (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िगरेशन विवरण : डिफ़ॉल्ट डेटासेट।

  • संस्करण :

    • 2.1.1 (डिफ़ॉल्ट): भाषण डेटा प्रकार को dtype=tf.int16 के साथ ठीक करें।
    • 2.1.2 : 'lazy_decode' कॉन्फ़िगरेशन जोड़ें।
  • डेटासेट का आकार : 304.47 GiB

  • उदाहरण ( tfds.as_dataframe ):

पुस्तकालय भाषण/lazy_decode

  • कॉन्फ़िगरेशन विवरण : कच्चा ऑडियो डेटासेट।

  • संस्करण :

    • 2.1.1 : भाषण डेटा प्रकार को dtype=tf.int16 के साथ ठीक करें।
    • 2.1.2 (डिफ़ॉल्ट): 'lazy_decode' कॉन्फ़िगरेशन जोड़ें।
  • डेटासेट का आकार : 59.37 GiB

  • उदाहरण ( tfds.as_dataframe ): गुम।

,

  • विवरण :

लिब्रीस्पीच 16 किलोहर्ट्ज़ की सैंपलिंग दर के साथ लगभग 1000 घंटों के पढ़े जाने वाले अंग्रेजी भाषण का संग्रह है, जिसे वासिल पानायोटोव ने डेनियल पोवे की सहायता से तैयार किया है। डेटा को लिब्रीवॉक्स प्रोजेक्ट से पढ़ी गई ऑडियोबुक से प्राप्त किया गया है, और इसे सावधानीपूर्वक खंडित और संरेखित किया गया है।

तेजी से पढ़ने और छोटे डेटासेट आकार के लिए आलसी ऑडियो डिकोडिंग का उपयोग करने की अनुशंसा की जाती है: - tensorflow_io लाइब्रेरी स्थापित करें: pip install tensorflow-io करें - आलसी डिकोडिंग सक्षम करें: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

विभाजित करना उदाहरण
'dev_clean' 2,703
'dev_other' 2,864
'test_clean' 2,620
'test_other' 2,939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • फ़ीचर संरचना :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
अध्याय_आईडी टेन्सर int64
पहचान टेन्सर डोरी
स्पीकर_आईडी टेन्सर int64
भाषण ऑडियो (कोई भी नहीं,) int16
मूलपाठ मूलपाठ डोरी
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): ('speech', 'text')

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/डिफ़ॉल्ट (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िगरेशन विवरण : डिफ़ॉल्ट डेटासेट।

  • संस्करण :

    • 2.1.1 (डिफ़ॉल्ट): भाषण डेटा प्रकार को dtype=tf.int16 के साथ ठीक करें।
    • 2.1.2 : 'lazy_decode' कॉन्फ़िगरेशन जोड़ें।
  • डेटासेट का आकार : 304.47 GiB

  • उदाहरण ( tfds.as_dataframe ):

पुस्तकालय भाषण/lazy_decode

  • कॉन्फ़िगरेशन विवरण : कच्चा ऑडियो डेटासेट।

  • संस्करण :

    • 2.1.1 : भाषण डेटा प्रकार को dtype=tf.int16 के साथ ठीक करें।
    • 2.1.2 (डिफ़ॉल्ट): 'lazy_decode' कॉन्फ़िगरेशन जोड़ें।
  • डेटासेट का आकार : 59.37 GiB

  • उदाहरण ( tfds.as_dataframe ): गुम।