user_libri_text

বর্ণনা :

UserLibri হল একটি ডেটাসেট যাতে পেয়ার করা অডিও-ট্রান্সক্রিপ্ট এবং অতিরিক্ত টেক্সট ডাটা থাকে 107 জন ব্যবহারকারীর জন্য। এটি http://www.openslr.org/12-এ পাওয়া LibriSpeech ডেটাসেটের একটি পুনঃফরম্যাটিং, গড়ে 52টি LibriSpeech উচ্চারণ এবং প্রতি ব্যবহারকারী প্রায় 6,700টি পাঠ্য উদাহরণ বাক্য সহ ব্যবহারকারীদের মধ্যে ডেটা পুনর্গঠন করে৷ UserLibriAudio ক্লাস অডিও-ট্রান্সক্রিপ্ট জোড়ায় অ্যাক্সেস প্রদান করে। অতিরিক্ত পাঠ্য ডেটার জন্য UserLibriText দেখুন।

হোমপেজ : https://www.kaggle.com/datasets/google/userlibri
সোর্স কোড : tfds.text.userlibri_lm_data.UserLibriText
সংস্করণ :
- 1.0.0 (ডিফল্ট): কোনো রিলিজ নোট নেই।
ডাউনলোড আকার : Unknown size
ডেটাসেটের আকার : 86.86 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'10136'`	38,496
`'1041'`	970
`'10540'`	3,283
`'108'`	৫,৮৬৪
`'11'`	1,348
`'11667'`	3,312
`'1184'`	22,062
`'12176'`	1,467
`'12434'`	2,796
`'12544'`	4,080
`'13110'`	2,634
`'13158'`	৩,৪৪০
`'13441'`	4,145
`'135'`	37,263
`'1353'`	৪,৮৮৯
`'1399'`	18,914
`'14420'`	৬,৯৫০
`'14566'`	3,810
`'1477'`	2,526
`'14958'`	1,495
`'15263'`	21,085
`'15265'`	৭,৬৪৭
`'1549'`	৫,৪৩৯
`'1572'`	2,882
`'1597'`	3,586
`'1608'`	3,605
`'16127'`	3,588
`'16653'`	৭,৬০০
`'18096'`	২,৩৮৪
`'1827'`	4,806
`'19019'`	3,248
`'19215'`	13,542
`'19717'`	৩,৭৬২
`'1989'`	1,105
`'1998'`	8,923
`'20019'`	966
`'2002'`	239
`'20212'`	৩,৩৬৩
`'209'`	2,090
`'21297'`	4,165
`'22002'`	৪,০৪৪
`'2300'`	22,201
`'24'`	3,537
`'24585'`	1,789
`'24811'`	২,৩৯৯
`'2488'`	৮,২৩৯
`'2529'`	৩,৯৩৪
`'26177'`	৩,৫৯৮
`'26379'`	379
`'2681'`	৮,৮৭২
`'27067'`	3,149
`'27090'`	3,217
`'2770'`	৩,৭৫০
`'2787'`	4,603
`'28700'`	৫,৫৪৭
`'28725'`	৩,৮৯৯
`'28952'`	2,909
`'2981'`	54,305
`'3076'`	7,124
`'30905'`	2,140
`'3178'`	৮,৪৫৪
`'33'`	3,569
`'33800'`	5,145
`'3436'`	৫,৮৯৯
`'3440'`	৫,০৮৭
`'3441'`	6,042
`'36508'`	521
`'3748'`	4,767
`'38675'`	2,696
`'38804'`	৫,৬৫৩
`'39159'`	2,729
`'4028'`	৯,৬৩৩
`'40359'`	7,821
`'41326'`	6,181
`'4217'`	6,003
`'4276'`	10,461
`'434'`	4,319
`'4602'`	4,421
`'507'`	৯,০৯৩
`'540'`	৫,৪৫২
`'5516'`	4,963
`'5630'`	1,130
`'574'`	452
`'5921'`	6,040
`'6328'`	5,926
`'6812'`	৫,৮৩৯
`'732'`	22,971
`'76'`	৬,৪৫৪
`'7891'`	1,476
`'8166'`	3,190
`'820'`	11,054
`'833'`	৩,৬৩৮
`'9189'`	৮,৩৮৭
`'94'`	1,722
`'940'`	6,172
`'9464'`	1,695
`'955'`	3,051
`'969'`	৭,৭৯৯
`'9983'`	৮,৮৯৮

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'book_id': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	ডিটাইপ	বর্ণনা
	ফিচারসডিক্ট
book_id	পাঠ্য	স্ট্রিং	যে বইটি থেকে এই লেখাটি তোলা হয়েছে
পাঠ্য	পাঠ্য	স্ট্রিং	একটি বই থেকে নেওয়া পাঠ্যের একটি বাক্য

তত্ত্বাবধানে থাকা কী ( as_supervised doc হিসাবে): ('text', 'text')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):

উদ্ধৃতি :

@inproceedings{breiner2022userlibri,
  title={UserLibri: A Dataset for ASR Personalization Using Only Text},
  author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
  booktitle={Proc. Interspeech 2022},
  year={2022}
}