স্পিচ_কমান্ড

  • বর্ণনা :

উচ্চারিত শব্দগুলির একটি অডিও ডেটাসেট যা কীওয়ার্ড স্পটিং সিস্টেমগুলিকে প্রশিক্ষণ এবং মূল্যায়নে সহায়তা করার জন্য ডিজাইন করা হয়েছে৷ এর প্রাথমিক লক্ষ্য হল ছোট মডেল তৈরি এবং পরীক্ষা করার একটি উপায় প্রদান করা যা শনাক্ত করে যখন একটি শব্দ উচ্চারিত হয়, দশ টার্গেট শব্দের একটি সেট থেকে, পটভূমির আওয়াজ বা সম্পর্কহীন বক্তৃতা থেকে যতটা সম্ভব কম মিথ্যা ইতিবাচক। লক্ষ্য করুন যে ট্রেন এবং বৈধতা সেটে, "অজানা" লেবেল টার্গেট শব্দ বা ব্যাকগ্রাউন্ড নয়েজের লেবেলের তুলনায় অনেক বেশি প্রচলিত। রিলিজ সংস্করণ থেকে একটি পার্থক্য হল নীরব অংশগুলি পরিচালনা করা। পরীক্ষার সেটে নীরবতার সেগমেন্টগুলি নিয়মিত 1 সেকেন্ডের ফাইল, প্রশিক্ষণে সেগুলি "ব্যাকগ্রাউন্ড_নোইস" ফোল্ডারের অধীনে দীর্ঘ অংশ হিসাবে সরবরাহ করা হয়। এখানে আমরা এই ব্যাকগ্রাউন্ড নয়েজগুলিকে 1 সেকেন্ডের ক্লিপগুলিতে বিভক্ত করি এবং বৈধকরণ সেটের জন্য একটি ফাইলও রাখি।

বিভক্ত উদাহরণ
'test' 4,890
'train' ৮৫,৫১১
'validation' 10,102
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
শ্রুতি শ্রুতি (কোনটিই নয়,) int16
লেবেল ক্লাসলেবেল int64
  • উদ্ধৃতি :
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}