কথ্য_সংখ্যা

বর্ণনা :

কথ্য সংখ্যার একটি বিনামূল্যের অডিও ডেটাসেট। অডিও জন্য MNIST চিন্তা করুন.

একটি সাধারণ অডিও/স্পিচ ডেটাসেট যা 8kHz এ wav ফাইলে কথ্য সংখ্যার রেকর্ডিং নিয়ে গঠিত। রেকর্ডিংগুলিকে এমনভাবে ছাঁটাই করা হয়েছে যাতে শুরুতে এবং শেষের দিকে ন্যূনতম নীরবতা থাকে৷

5 স্পিকার
2,500টি রেকর্ডিং (প্রতি স্পিকার প্রতি সংখ্যার 50টি)
ইংরেজি উচ্চারণ

ফাইলগুলিকে নিম্নলিখিত ফর্ম্যাটে নাম দেওয়া হয়েছে: {digitLabel} {speakerName} {index}.wav

অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন
হোমপেজ : https://github.com/Jakobovski/free-spoken-digit-dataset
সোর্স কোড : tfds.datasets.spoken_digit.Builder
সংস্করণ :
- 1.0.9 (ডিফল্ট): কোনো রিলিজ নোট নেই।
ডাউনলোড সাইজ : 11.42 MiB
ডেটাসেটের আকার : 45.68 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'train'`	2,500

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
শ্রুতি	শ্রুতি	(কোনটিই নয়,)	int64
অডিও/ফাইলের নাম	পাঠ্য		স্ট্রিং
লেবেল	ক্লাসলেবেল		int64

তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): ('audio', 'label')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):

উদ্ধৃতি :

@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}