- বর্ণনা :
UserLibri হল একটি ডেটাসেট যাতে পেয়ার করা অডিও-ট্রান্সক্রিপ্ট এবং অতিরিক্ত টেক্সট ডাটা থাকে 107 জন ব্যবহারকারীর জন্য। এটি http://www.openslr.org/12-এ পাওয়া LibriSpeech ডেটাসেটের একটি পুনঃফরম্যাটিং, গড়ে 52টি LibriSpeech উচ্চারণ এবং প্রতি ব্যবহারকারী প্রায় 6,700টি পাঠ্য উদাহরণ বাক্য সহ ব্যবহারকারীদের মধ্যে ডেটা পুনর্গঠন করে৷ UserLibriAudio ক্লাস অডিও-ট্রান্সক্রিপ্ট জোড়ায় অ্যাক্সেস প্রদান করে। অতিরিক্ত পাঠ্য ডেটার জন্য UserLibriText দেখুন।
সোর্স কোড :
tfds.text.userlibri_lm_data.UserLibriText
সংস্করণ :
-
1.0.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড আকার :
Unknown size
ডেটাসেটের আকার :
86.86 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'10136' | 38,496 |
'1041' | 970 |
'10540' | 3,283 |
'108' | ৫,৮৬৪ |
'11' | 1,348 |
'11667' | 3,312 |
'1184' | 22,062 |
'12176' | 1,467 |
'12434' | 2,796 |
'12544' | 4,080 |
'13110' | 2,634 |
'13158' | ৩,৪৪০ |
'13441' | 4,145 |
'135' | 37,263 |
'1353' | ৪,৮৮৯ |
'1399' | 18,914 |
'14420' | ৬,৯৫০ |
'14566' | 3,810 |
'1477' | 2,526 |
'14958' | 1,495 |
'15263' | 21,085 |
'15265' | ৭,৬৪৭ |
'1549' | ৫,৪৩৯ |
'1572' | 2,882 |
'1597' | 3,586 |
'1608' | 3,605 |
'16127' | 3,588 |
'16653' | ৭,৬০০ |
'18096' | ২,৩৮৪ |
'1827' | 4,806 |
'19019' | 3,248 |
'19215' | 13,542 |
'19717' | ৩,৭৬২ |
'1989' | 1,105 |
'1998' | 8,923 |
'20019' | 966 |
'2002' | 239 |
'20212' | ৩,৩৬৩ |
'209' | 2,090 |
'21297' | 4,165 |
'22002' | ৪,০৪৪ |
'2300' | 22,201 |
'24' | 3,537 |
'24585' | 1,789 |
'24811' | ২,৩৯৯ |
'2488' | ৮,২৩৯ |
'2529' | ৩,৯৩৪ |
'26177' | ৩,৫৯৮ |
'26379' | 379 |
'2681' | ৮,৮৭২ |
'27067' | 3,149 |
'27090' | 3,217 |
'2770' | ৩,৭৫০ |
'2787' | 4,603 |
'28700' | ৫,৫৪৭ |
'28725' | ৩,৮৯৯ |
'28952' | 2,909 |
'2981' | 54,305 |
'3076' | 7,124 |
'30905' | 2,140 |
'3178' | ৮,৪৫৪ |
'33' | 3,569 |
'33800' | 5,145 |
'3436' | ৫,৮৯৯ |
'3440' | ৫,০৮৭ |
'3441' | 6,042 |
'36508' | 521 |
'3748' | 4,767 |
'38675' | 2,696 |
'38804' | ৫,৬৫৩ |
'39159' | 2,729 |
'4028' | ৯,৬৩৩ |
'40359' | 7,821 |
'41326' | 6,181 |
'4217' | 6,003 |
'4276' | 10,461 |
'434' | 4,319 |
'4602' | 4,421 |
'507' | ৯,০৯৩ |
'540' | ৫,৪৫২ |
'5516' | 4,963 |
'5630' | 1,130 |
'574' | 452 |
'5921' | 6,040 |
'6328' | 5,926 |
'6812' | ৫,৮৩৯ |
'732' | 22,971 |
'76' | ৬,৪৫৪ |
'7891' | 1,476 |
'8166' | 3,190 |
'820' | 11,054 |
'833' | ৩,৬৩৮ |
'9189' | ৮,৩৮৭ |
'94' | 1,722 |
'940' | 6,172 |
'9464' | 1,695 |
'955' | 3,051 |
'969' | ৭,৭৯৯ |
'9983' | ৮,৮৯৮ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'book_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
book_id | পাঠ্য | স্ট্রিং | যে বইটি থেকে এই লেখাটি তোলা হয়েছে | |
পাঠ্য | পাঠ্য | স্ট্রিং | একটি বই থেকে নেওয়া পাঠ্যের একটি বাক্য |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc হিসাবে):('text', 'text')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{breiner2022userlibri,
title={UserLibri: A Dataset for ASR Personalization Using Only Text},
author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
booktitle={Proc. Interspeech 2022},
year={2022}
}