ليبريس

  • الوصف :

LibriSpeech عبارة عن مجموعة تضم ما يقرب من 1000 ساعة من قراءة الكلام باللغة الإنجليزية بمعدل أخذ عينات يبلغ 16 كيلو هرتز ، تم إعداده بواسطة Vassil Panayotov بمساعدة Daniel Povey. البيانات مشتقة من الكتب الصوتية المقروءة من مشروع LibriVox ، وقد تم تقسيمها ومواءمتها بعناية.

يوصى باستخدام فك ترميز الصوت البطيء لقراءة أسرع وحجم أصغر لمجموعة البيانات: - تثبيت مكتبة tensorflow_io : pip install tensorflow-io - تمكين فك التشفير البطيء: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

انشق، مزق أمثلة
'dev_clean' 2،703
'dev_other' 2864
'test_clean' 2،620
'test_other' 2،939
'train_clean100' 28.539
'train_clean360' 104،014
'train_other500' 148688
  • هيكل الميزة :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
Chapter_id موتر int64
هوية شخصية موتر سلسلة
Speaker_id موتر int64
خطاب صوتي (لا أحد،) int16
نص نص سلسلة
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech / افتراضي (التكوين الافتراضي)

  • وصف التكوين : مجموعة البيانات الافتراضية.

  • إصدارات :

    • 2.1.1 (افتراضي): إصلاح نوع بيانات الكلام باستخدام dtype = tf.int16.
    • 2.1.2 : إضافة ملف التكوين "lazy_decode"
  • حجم مجموعة البيانات : 304.47 GiB

  • أمثلة ( tfds.as_dataframe ):

librispeech / lazy_decode

  • وصف التكوين : مجموعة بيانات الصوت الخام.

  • إصدارات :

    • 2.1.1 : إصلاح نوع بيانات الكلام مع dtype = tf.int16.
    • 2.1.2 (افتراضي): أضف ملف التكوين "lazy_decode".
  • حجم مجموعة البيانات : 59.37 GiB

  • أمثلة ( tfds.as_dataframe ): مفقود.

و

  • الوصف :

LibriSpeech عبارة عن مجموعة تضم ما يقرب من 1000 ساعة من قراءة الكلام باللغة الإنجليزية بمعدل أخذ عينات يبلغ 16 كيلو هرتز ، تم إعداده بواسطة Vassil Panayotov بمساعدة Daniel Povey. البيانات مشتقة من الكتب الصوتية المقروءة من مشروع LibriVox ، وقد تم تقسيمها ومواءمتها بعناية.

يوصى باستخدام فك ترميز الصوت البطيء لقراءة أسرع وحجم أصغر لمجموعة البيانات: - تثبيت مكتبة tensorflow_io : pip install tensorflow-io - تمكين فك التشفير البطيء: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

انشق، مزق أمثلة
'dev_clean' 2،703
'dev_other' 2864
'test_clean' 2،620
'test_other' 2،939
'train_clean100' 28.539
'train_clean360' 104،014
'train_other500' 148688
  • هيكل الميزة :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
Chapter_id موتر int64
هوية شخصية موتر سلسلة
Speaker_id موتر int64
خطاب صوتي (لا أحد،) int16
نص نص سلسلة
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech / افتراضي (التكوين الافتراضي)

  • وصف التكوين : مجموعة البيانات الافتراضية.

  • إصدارات :

    • 2.1.1 (افتراضي): إصلاح نوع بيانات الكلام باستخدام dtype = tf.int16.
    • 2.1.2 : إضافة ملف التكوين "lazy_decode"
  • حجم مجموعة البيانات : 304.47 GiB

  • أمثلة ( tfds.as_dataframe ):

librispeech / lazy_decode

  • وصف التكوين : مجموعة بيانات الصوت الخام.

  • إصدارات :

    • 2.1.1 : إصلاح نوع بيانات الكلام مع dtype = tf.int16.
    • 2.1.2 (افتراضي): أضف ملف التكوين "lazy_decode".
  • حجم مجموعة البيانات : 59.37 GiB

  • أمثلة ( tfds.as_dataframe ): مفقود.