- বর্ণনা :
LibriSpeech হল প্রায় 1000 ঘন্টা পঠিত ইংরেজি বক্তৃতা, যার স্যাম্পলিং রেট 16 kHz, ড্যানিয়েল পোভির সহায়তায় ভ্যাসিল প্যানায়োটভ তৈরি করেছেন। ডেটা LibriVox প্রকল্প থেকে পড়া অডিওবুক থেকে প্রাপ্ত করা হয়েছে, এবং সাবধানে সেগমেন্ট এবং সারিবদ্ধ করা হয়েছে.
দ্রুত পড়া এবং ছোট ডেটাসেট আকারের জন্য অলস অডিও ডিকোডিং ব্যবহার করার পরামর্শ দেওয়া হচ্ছে: - tensorflow_io
লাইব্রেরি ইনস্টল করুন: pip install tensorflow-io
- অলস ডিকোডিং সক্ষম করুন: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
হোমপেজ : http://www.openslr.org/12
সোর্স কোড :
tfds.datasets.librispeech.Builder
ডাউনলোড সাইজ :
57.14 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'dev_clean' | 2,703 |
'dev_other' | 2,864 |
'test_clean' | 2,620 |
'test_other' | 2,939 |
'train_clean100' | 28,539 |
'train_clean360' | 104,014 |
'train_other500' | 148,688 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অধ্যায়_আইডি | টেনসর | int64 | ||
আইডি | টেনসর | স্ট্রিং | ||
স্পিকার_আইডি | টেনসর | int64 | ||
বক্তৃতা | শ্রুতি | (কোনটিই নয়,) | int16 | |
পাঠ্য | পাঠ্য | স্ট্রিং |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc ):('speech', 'text')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/ডিফল্ট (ডিফল্ট কনফিগারেশন)
কনফিগার বিবরণ : ডিফল্ট ডেটাসেট।
সংস্করণ :
-
2.1.1
(ডিফল্ট): dtype=tf.int16 দিয়ে স্পিচ ডেটা টাইপ ঠিক করুন। -
2.1.2
: 'lazy_decode' কনফিগার যোগ করুন।
-
ডেটাসেটের আকার :
304.47 GiB
উদাহরণ ( tfds.as_dataframe ):
librispeech/lazy_decode
কনফিগারেশনের বিবরণ : কাঁচা অডিও ডেটাসেট।
সংস্করণ :
-
2.1.1
: dtype=tf.int16 দিয়ে স্পিচ ডেটা টাইপ ঠিক করুন। -
2.1.2
(ডিফল্ট): 'lazy_decode' কনফিগার যোগ করুন।
-
ডেটাসেটের আকার :
59.37 GiB
উদাহরণ ( tfds.as_dataframe ): অনুপস্থিত।
- বর্ণনা :
LibriSpeech হল প্রায় 1000 ঘন্টা পঠিত ইংরেজি বক্তৃতা, যার স্যাম্পলিং রেট 16 kHz, ড্যানিয়েল পোভির সহায়তায় ভ্যাসিল প্যানায়োটভ তৈরি করেছেন। ডেটা LibriVox প্রকল্প থেকে পড়া অডিওবুক থেকে প্রাপ্ত করা হয়েছে, এবং সাবধানে সেগমেন্ট এবং সারিবদ্ধ করা হয়েছে.
দ্রুত পড়া এবং ছোট ডেটাসেট আকারের জন্য অলস অডিও ডিকোডিং ব্যবহার করার পরামর্শ দেওয়া হচ্ছে: - tensorflow_io
লাইব্রেরি ইনস্টল করুন: pip install tensorflow-io
- অলস ডিকোডিং সক্ষম করুন: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
হোমপেজ : http://www.openslr.org/12
সোর্স কোড :
tfds.datasets.librispeech.Builder
ডাউনলোড সাইজ :
57.14 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'dev_clean' | 2,703 |
'dev_other' | 2,864 |
'test_clean' | 2,620 |
'test_other' | 2,939 |
'train_clean100' | 28,539 |
'train_clean360' | 104,014 |
'train_other500' | 148,688 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
অধ্যায়_আইডি | টেনসর | int64 | ||
আইডি | টেনসর | স্ট্রিং | ||
স্পিকার_আইডি | টেনসর | int64 | ||
বক্তৃতা | শ্রুতি | (কোনটিই নয়,) | int16 | |
পাঠ্য | পাঠ্য | স্ট্রিং |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc ):('speech', 'text')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/ডিফল্ট (ডিফল্ট কনফিগারেশন)
কনফিগার বিবরণ : ডিফল্ট ডেটাসেট।
সংস্করণ :
-
2.1.1
(ডিফল্ট): dtype=tf.int16 দিয়ে স্পিচ ডেটা টাইপ ঠিক করুন। -
2.1.2
: 'lazy_decode' কনফিগার যোগ করুন।
-
ডেটাসেটের আকার :
304.47 GiB
উদাহরণ ( tfds.as_dataframe ):
librispeech/lazy_decode
কনফিগারেশনের বিবরণ : কাঁচা অডিও ডেটাসেট।
সংস্করণ :
-
2.1.1
: dtype=tf.int16 দিয়ে স্পিচ ডেটা টাইপ ঠিক করুন। -
2.1.2
(ডিফল্ট): 'lazy_decode' কনফিগার যোগ করুন।
-
ডেটাসেটের আকার :
59.37 GiB
উদাহরণ ( tfds.as_dataframe ): অনুপস্থিত।