- الوصف :
LibriSpeech عبارة عن مجموعة تضم ما يقرب من 1000 ساعة من قراءة الكلام باللغة الإنجليزية بمعدل أخذ عينات يبلغ 16 كيلو هرتز ، تم إعداده بواسطة Vassil Panayotov بمساعدة Daniel Povey. البيانات مشتقة من الكتب الصوتية المقروءة من مشروع LibriVox ، وقد تم تقسيمها ومواءمتها بعناية.
يوصى باستخدام فك ترميز الصوت البطيء لقراءة أسرع وحجم أصغر لمجموعة البيانات: - تثبيت مكتبة tensorflow_io
: pip install tensorflow-io
- تمكين فك التشفير البطيء: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : http://www.openslr.org/12
كود المصدر :
tfds.datasets.librispeech.Builder
حجم التحميل :
57.14 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev_clean' | 2،703 |
'dev_other' | 2864 |
'test_clean' | 2،620 |
'test_other' | 2،939 |
'train_clean100' | 28.539 |
'train_clean360' | 104،014 |
'train_other500' | 148688 |
- هيكل الميزة :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
Chapter_id | موتر | int64 | ||
هوية شخصية | موتر | سلسلة | ||
Speaker_id | موتر | int64 | ||
خطاب | صوتي | (لا أحد،) | int16 | |
نص | نص | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('speech', 'text')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech / افتراضي (التكوين الافتراضي)
وصف التكوين : مجموعة البيانات الافتراضية.
إصدارات :
-
2.1.1
(افتراضي): إصلاح نوع بيانات الكلام باستخدام dtype = tf.int16. -
2.1.2
: إضافة ملف التكوين "lazy_decode"
-
حجم مجموعة البيانات :
304.47 GiB
أمثلة ( tfds.as_dataframe ):
librispeech / lazy_decode
وصف التكوين : مجموعة بيانات الصوت الخام.
إصدارات :
-
2.1.1
: إصلاح نوع بيانات الكلام مع dtype = tf.int16. -
2.1.2
(افتراضي): أضف ملف التكوين "lazy_decode".
-
حجم مجموعة البيانات :
59.37 GiB
أمثلة ( tfds.as_dataframe ): مفقود.
- الوصف :
LibriSpeech عبارة عن مجموعة تضم ما يقرب من 1000 ساعة من قراءة الكلام باللغة الإنجليزية بمعدل أخذ عينات يبلغ 16 كيلو هرتز ، تم إعداده بواسطة Vassil Panayotov بمساعدة Daniel Povey. البيانات مشتقة من الكتب الصوتية المقروءة من مشروع LibriVox ، وقد تم تقسيمها ومواءمتها بعناية.
يوصى باستخدام فك ترميز الصوت البطيء لقراءة أسرع وحجم أصغر لمجموعة البيانات: - تثبيت مكتبة tensorflow_io
: pip install tensorflow-io
- تمكين فك التشفير البطيء: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : http://www.openslr.org/12
كود المصدر :
tfds.datasets.librispeech.Builder
حجم التحميل :
57.14 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'dev_clean' | 2،703 |
'dev_other' | 2864 |
'test_clean' | 2،620 |
'test_other' | 2،939 |
'train_clean100' | 28.539 |
'train_clean360' | 104،014 |
'train_other500' | 148688 |
- هيكل الميزة :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
Chapter_id | موتر | int64 | ||
هوية شخصية | موتر | سلسلة | ||
Speaker_id | موتر | int64 | ||
خطاب | صوتي | (لا أحد،) | int16 | |
نص | نص | سلسلة |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('speech', 'text')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech / افتراضي (التكوين الافتراضي)
وصف التكوين : مجموعة البيانات الافتراضية.
إصدارات :
-
2.1.1
(افتراضي): إصلاح نوع بيانات الكلام باستخدام dtype = tf.int16. -
2.1.2
: إضافة ملف التكوين "lazy_decode"
-
حجم مجموعة البيانات :
304.47 GiB
أمثلة ( tfds.as_dataframe ):
librispeech / lazy_decode
وصف التكوين : مجموعة بيانات الصوت الخام.
إصدارات :
-
2.1.1
: إصلاح نوع بيانات الكلام مع dtype = tf.int16. -
2.1.2
(افتراضي): أضف ملف التكوين "lazy_decode".
-
حجم مجموعة البيانات :
59.37 GiB
أمثلة ( tfds.as_dataframe ): مفقود.