user_libri_text

설명 :

UserLibri는 각 107명의 사용자에 대한 쌍으로 된 오디오 기록 및 추가 텍스트 전용 데이터를 포함하는 데이터 세트입니다. 이것은 http://www.openslr.org/12 에 있는 LibriSpeech 데이터 세트의 형식을 다시 지정하여 사용자당 평균 52개의 LibriSpeech 발화와 약 6,700개의 텍스트 예문이 있는 사용자로 데이터를 재구성합니다. UserLibriAudio 클래스는 오디오 대본 쌍에 대한 액세스를 제공합니다. 추가 텍스트 데이터는 UserLibriText를 참조하십시오.

홈페이지 : https://www.kaggle.com/datasets/google/userlibri
소스 코드 : tfds.text.userlibri_lm_data.UserLibriText
버전 :
- 1.0.0 (기본값): 릴리스 정보가 없습니다.
다운로드 크기 : Unknown size
데이터 세트 크기 : 86.86 MiB
자동 캐시 ( 문서 ): 예
분할 :

나뉘다	예
`'10136'`	38,496
`'1041'`	970
`'10540'`	3,283
`'108'`	5,864
`'11'`	1,348
`'11667'`	3,312
`'1184'`	22,062
`'12176'`	1,467
`'12434'`	2,796
`'12544'`	4,080
`'13110'`	2,634
`'13158'`	3,440
`'13441'`	4,145
`'135'`	37,263
`'1353'`	4,889
`'1399'`	18,914
`'14420'`	6,950
`'14566'`	3,810
`'1477'`	2,526
`'14958'`	1,495
`'15263'`	21,085
`'15265'`	7,647
`'1549'`	5,439
`'1572'`	2,882
`'1597'`	3,586
`'1608'`	3,605
`'16127'`	3,588
`'16653'`	7,600
`'18096'`	2,384
`'1827'`	4,806
`'19019'`	3,248
`'19215'`	13,542
`'19717'`	3,762
`'1989'`	1,105
`'1998'`	8,923
`'20019'`	966
`'2002'`	239
`'20212'`	3,363
`'209'`	2,090
`'21297'`	4,165
`'22002'`	4,044
`'2300'`	22,201
`'24'`	3,537
`'24585'`	1,789
`'24811'`	2,399
`'2488'`	8,239
`'2529'`	3,934
`'26177'`	3,598
`'26379'`	379
`'2681'`	8,872
`'27067'`	3,149
`'27090'`	3,217
`'2770'`	3,750
`'2787'`	4,603
`'28700'`	5,547
`'28725'`	3,899
`'28952'`	2,909
`'2981'`	54,305
`'3076'`	7,124
`'30905'`	2,140
`'3178'`	8,454
`'33'`	3,569
`'33800'`	5,145
`'3436'`	5,899
`'3440'`	5,087
`'3441'`	6,042
`'36508'`	521
`'3748'`	4,767
`'38675'`	2,696
`'38804'`	5,653
`'39159'`	2,729
`'4028'`	9,633
`'40359'`	7,821
`'41326'`	6,181
`'4217'`	6,003
`'4276'`	10,461
`'434'`	4,319
`'4602'`	4,421
`'507'`	9,093
`'540'`	5,452
`'5516'`	4,963
`'5630'`	1,130
`'574'`	452
`'5921'`	6,040
`'6328'`	5,926
`'6812'`	5,839
`'732'`	22,971
`'76'`	6,454
`'7891'`	1,476
`'8166'`	3,190
`'820'`	11,054
`'833'`	3,638
`'9189'`	8,387
`'94'`	1,722
`'940'`	6,172
`'9464'`	1,695
`'955'`	3,051
`'969'`	7,799
`'9983'`	8,898

기능 구조 :

FeaturesDict({
    'book_id': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

기능 문서 :

특징	수업	D타입	설명
	풍모Dict
book_id	텍스트	끈	이 텍스트를 가져온 책
텍스트	텍스트	끈	책에서 추출한 문장

감독 키 ( as_supervised 문서 참조): ('text', 'text')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):

인용 :

@inproceedings{breiner2022userlibri,
  title={UserLibri: A Dataset for ASR Personalization Using Only Text},
  author={Breiner, Theresa and Ramaswamy, Swaroop and Variani, Ehsan and Garg, Shefali and Mathews, Rajiv and Sim, Khe Chai and Gupta, Kilol and Chen, Mingqing and McConnaughey, Lara},
  booktitle={Proc. Interspeech 2022},
  year={2022}
}

user_libri_text 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

user_libri_text