libritts

  • বর্ণনা :

LibriTTS হল 24kHz স্যাম্পলিং রেটে প্রায় 585 ঘন্টা পঠিত ইংরেজি বক্তৃতার একটি মাল্টি-স্পীকার ইংলিশ কর্পাস, যা Google স্পিচ এবং Google ব্রেইন দলের সদস্যদের সহায়তায় Heiga Zen দ্বারা প্রস্তুত করা হয়েছে। LibriTTS কর্পাস টিটিএস গবেষণার জন্য ডিজাইন করা হয়েছে। এটি LibriSpeech কর্পাসের মূল উপকরণ (LibriVox থেকে mp3 অডিও ফাইল এবং প্রজেক্ট গুটেনবার্গ থেকে টেক্সট ফাইল) থেকে নেওয়া হয়েছে। LibriSpeech কর্পাস থেকে প্রধান পার্থক্য নীচে তালিকাভুক্ত করা হয়েছে:

  1. অডিও ফাইল 24kHz স্যাম্পলিং হারে।
  2. বাক্য বিরতিতে বক্তৃতা বিভক্ত হয়।
  3. মূল এবং স্বাভাবিক লেখা উভয়ই অন্তর্ভুক্ত করা হয়েছে।
  4. প্রাসঙ্গিক তথ্য (যেমন, প্রতিবেশী বাক্য) বের করা যেতে পারে।
  5. উল্লেখযোগ্য ব্যাকগ্রাউন্ড নয়েজ সহ উচ্চারণগুলি বাদ দেওয়া হয়েছে৷
বিভক্ত উদাহরণ
'dev_clean' 5,736
'dev_other' 4,613
'test_clean' 4,837
'test_other' 5,120
'train_clean100' 33,236
'train_clean360' 116,500
'train_other500' 205,044
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অধ্যায়_আইডি টেনসর int64
আইডি টেনসর স্ট্রিং
স্পিকার_আইডি টেনসর int64
বক্তৃতা শ্রুতি (কোনটিই নয়,) int64
টেক্সট_নর্মালাইজড পাঠ্য স্ট্রিং
টেক্সট_অরিজিনাল পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}