참고자료:
일반 텍스트
TFDS에 이 데이터세트를 로드하려면 다음 명령어를 사용하세요.
ds = tfds.load('huggingface:ted_multi/plain_text')
- 설명 :
Massively multilingual (60 language) data set derived from TED Talk transcripts.
Each record consists of parallel arrays of language and text. Missing and
incomplete translations will be filtered out.
- 라이센스 : 알려진 라이센스 없음
- 버전 : 1.0.0
- 분할 :
나뉘다 | 예 |
---|---|
'test' | 7213 |
'train' | 258098 |
'validation' | 6049 |
- 특징 :
{
"translations": {
"languages": [
"ar",
"az",
"be",
"bg",
"bn",
"bs",
"calv",
"cs",
"da",
"de",
"el",
"en",
"eo",
"es",
"et",
"eu",
"fa",
"fi",
"fr",
"fr-ca",
"gl",
"he",
"hi",
"hr",
"hu",
"hy",
"id",
"it",
"ja",
"ka",
"kk",
"ko",
"ku",
"lt",
"mk",
"mn",
"mr",
"ms",
"my",
"nb",
"nl",
"pl",
"pt",
"pt-br",
"ro",
"ru",
"sk",
"sl",
"sq",
"sr",
"sv",
"ta",
"th",
"tr",
"uk",
"ur",
"vi",
"zh",
"zh-cn",
"zh-tw"
],
"num_languages": 60,
"id": null,
"_type": "TranslationVariableLanguages"
},
"talk_name": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}