- বর্ণনা :
কথ্য সংখ্যার একটি বিনামূল্যের অডিও ডেটাসেট। অডিও জন্য MNIST চিন্তা করুন.
একটি সাধারণ অডিও/স্পিচ ডেটাসেট যা 8kHz এ wav ফাইলে কথ্য সংখ্যার রেকর্ডিং নিয়ে গঠিত। রেকর্ডিংগুলিকে এমনভাবে ছাঁটাই করা হয়েছে যাতে শুরুতে এবং শেষের দিকে ন্যূনতম নীরবতা থাকে৷
5 স্পিকার
2,500টি রেকর্ডিং (প্রতি স্পিকার প্রতি সংখ্যার 50টি)
ইংরেজি উচ্চারণ
ফাইলগুলিকে নিম্নলিখিত ফর্ম্যাটে নাম দেওয়া হয়েছে: {digitLabel} {speakerName} {index}.wav
হোমপেজ : https://github.com/Jakobovski/free-spoken-digit-dataset
সোর্স কোড :
tfds.datasets.spoken_digit.Builder
সংস্করণ :
-
1.0.9
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড সাইজ :
11.42 MiB
ডেটাসেটের আকার :
45.68 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 2,500 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int64),
'audio/filename': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
শ্রুতি | শ্রুতি | (কোনটিই নয়,) | int64 | |
অডিও/ফাইলের নাম | পাঠ্য | স্ট্রিং | ||
লেবেল | ক্লাসলেবেল | int64 |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('audio', 'label')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@ONLINE {Free Spoken Digit Dataset,
author = "Zohar Jackson",
title = "Spoken_Digit",
year = "2016",
url = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}