נאום ליבריז

  • תיאור :

LibriSpeech הוא קורפוס של כ-1000 שעות של דיבור באנגלית קריאה עם קצב דגימה של 16 קילו-הרץ, שהוכן על ידי ואסיל פאנאיוטוב בסיועו של דניאל פובי. הנתונים נגזרים מספרי אודיו שנקראו מפרויקט LibriVox, ופולחו ויושרו בקפידה.

מומלץ להשתמש בפענוח אודיו עצלן לקריאה מהירה יותר וגודל מערך נתונים קטן יותר: - התקן את ספריית tensorflow_io : pip install tensorflow-io - אפשר פענוח עצלן: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

לְפַצֵל דוגמאות
'dev_clean' 2,703
'dev_other' 2,864
'test_clean' 2,620
'test_other' 2,939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • מבנה תכונה :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פרק_מזהה מוֹתֵחַ int64
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
מזהה_רמקול מוֹתֵחַ int64
נְאוּם שֶׁמַע (אף אחד,) int16
טֶקסט טֶקסט חוּט
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (תצורת ברירת מחדל)

  • תיאור תצורה : מערך נתונים ברירת מחדל.

  • גרסאות :

    • 2.1.1 (ברירת מחדל): תקן את סוג נתוני הדיבור באמצעות dtype=tf.int16.
    • 2.1.2 : הוסף תצורת 'lazy_decode'.
  • גודל מערך נתונים : 304.47 GiB

  • דוגמאות ( tfds.as_dataframe ):

librispeech/lazy_decode

  • תיאור תצורה : מערך נתונים גולמי של אודיו.

  • גרסאות :

    • 2.1.1 : תקן את סוג נתוני הדיבור באמצעות dtype=tf.int16.
    • 2.1.2 (ברירת מחדל): הוסף תצורת 'lazy_decode'.
  • גודל מערך נתונים : 59.37 GiB

  • דוגמאות ( tfds.as_dataframe ): חסר.

,

  • תיאור :

LibriSpeech הוא קורפוס של כ-1000 שעות של דיבור באנגלית קריאה עם קצב דגימה של 16 קילו-הרץ, שהוכן על ידי ואסיל פאנאיוטוב בסיועו של דניאל פובי. הנתונים נגזרים מספרי אודיו שנקראו מפרויקט LibriVox, ופולחו ויושרו בקפידה.

מומלץ להשתמש בפענוח אודיו עצלן לקריאה מהירה יותר וגודל מערך נתונים קטן יותר: - התקן את ספריית tensorflow_io : pip install tensorflow-io - אפשר פענוח עצלן: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

לְפַצֵל דוגמאות
'dev_clean' 2,703
'dev_other' 2,864
'test_clean' 2,620
'test_other' 2,939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • מבנה תכונה :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
פרק_מזהה מוֹתֵחַ int64
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
מזהה_רמקול מוֹתֵחַ int64
נְאוּם שֶׁמַע (אף אחד,) int16
טֶקסט טֶקסט חוּט
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (תצורת ברירת מחדל)

  • תיאור תצורה : מערך נתונים ברירת מחדל.

  • גרסאות :

    • 2.1.1 (ברירת מחדל): תקן את סוג נתוני הדיבור באמצעות dtype=tf.int16.
    • 2.1.2 : הוסף תצורת 'lazy_decode'.
  • גודל מערך נתונים : 304.47 GiB

  • דוגמאות ( tfds.as_dataframe ):

librispeech/lazy_decode

  • תיאור תצורה : מערך נתונים גולמי של אודיו.

  • גרסאות :

    • 2.1.1 : תקן את סוג נתוני הדיבור באמצעות dtype=tf.int16.
    • 2.1.2 (ברירת מחדל): הוסף תצורת 'lazy_decode'.
  • גודל מערך נתונים : 59.37 GiB

  • דוגמאות ( tfds.as_dataframe ): חסר.