- الوصف :
مجموعات البيانات المشتقة من نصوص محادثة TED لمقارنة أزواج لغوية متشابهة حيث يكون أحدهما مصدرًا عاليًا والآخر منخفض الموارد.
الصفحة الرئيسية : https://github.com/neulab/word-embeddings-for-nmt
كود المصدر :
tfds.datasets.ted_hrlr_translate.Builder
إصدارات :
-
1.0.0
(افتراضي): تقسيم API الجديد ( https://tensorflow.org/datasets/splits )
-
حجم التحميل :
124.94 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{Ye2018WordEmbeddings,
author = {Ye, Qi and Devendra, Sachan and Matthieu, Felix and Sarguna, Padmanabhan and Graham, Neubig},
title = {When and Why are pre-trained word embeddings useful for Neural Machine Translation},
booktitle = {HLT-NAACL},
year = {2018},
}
ted_hrlr_translate / az_to_en (التكوين الافتراضي)
وصف التكوين : مجموعة بيانات الترجمة من الألف إلى الياء إلى اللغة الإنجليزية بنص عادي.
حجم مجموعة البيانات :
1.61 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 903 |
'train' | 5946 |
'validation' | 671 |
- هيكل الميزة :
Translation({
'az': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
من الألف إلى الياء | نص | خيط | ||
en | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('az', 'en')
أمثلة ( tfds.as_dataframe ):
ted_hrlr_translate / aztr_to_ar
وصف التكوين : مجموعة بيانات الترجمة من az_tr إلى en في نص عادي.
حجم مجموعة البيانات :
42.54 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 903 |
'train' | 188396 |
'validation' | 671 |
- هيكل الميزة :
Translation({
'az_tr': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
az_tr | نص | خيط | ||
en | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('az_tr', 'en')
أمثلة ( tfds.as_dataframe ):
ted_hrlr_translate / be_to_ar
وصف التكوين : مجموعة بيانات الترجمة من be إلى en في نص عادي.
حجم مجموعة البيانات :
1.47 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 664 |
'train' | 4،509 |
'validation' | 248 |
- هيكل الميزة :
Translation({
'be': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
يكون | نص | خيط | ||
en | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('be', 'en')
أمثلة ( tfds.as_dataframe ):
ted_hrlr_translate / beru_to_ar
وصف التكوين : مجموعة بيانات الترجمة من be_ru إلى en بنص عادي.
حجم مجموعة البيانات :
62.45 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 664 |
'train' | 212.614 |
'validation' | 248 |
- هيكل الميزة :
Translation({
'be_ru': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
be_ru | نص | خيط | ||
en | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('be_ru', 'en')
أمثلة ( tfds.as_dataframe ):
ted_hrlr_translate / es_to_pt
وصف التكوين : مجموعة بيانات الترجمة من es إلى pt بنص عادي.
حجم مجموعة البيانات :
9.62 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 1،763 |
'train' | 44938 |
'validation' | 1،016 |
- هيكل الميزة :
Translation({
'es': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
إس | نص | خيط | ||
نقطة | نص | خيط |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('es', 'pt')
أمثلة ( tfds.as_dataframe ):
ted_hrlr_translate / fr_to_pt
وصف التكوين : مجموعة بيانات الترجمة من fr إلى pt في نص عادي.
حجم مجموعة البيانات :
9.74 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 1494 |
'train' | 43873 |
'validation' | 1131 |
- هيكل الميزة :
Translation({
'fr': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
الاب | نص | خيط | ||
نقطة | نص | خيط |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('fr', 'pt')
أمثلة ( tfds.as_dataframe ):
ted_hrlr_translate / gl_to_ar
وصف التكوين : مجموعة بيانات الترجمة من gl إلى en بنص عادي.
حجم مجموعة البيانات :
2.41 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 1007 |
'train' | 10،017 |
'validation' | 682 |
- هيكل الميزة :
Translation({
'en': Text(shape=(), dtype=string),
'gl': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
en | نص | خيط | ||
gl | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('gl', 'en')
أمثلة ( tfds.as_dataframe ):
ted_hrlr_translate / glpt_to_ar
وصف التكوين : مجموعة بيانات الترجمة من gl_pt إلى en بنص عادي.
حجم مجموعة البيانات :
12.90 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 1007 |
'train' | 61802 |
'validation' | 682 |
- هيكل الميزة :
Translation({
'en': Text(shape=(), dtype=string),
'gl_pt': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
en | نص | خيط | ||
gl_pt | نص | خيط |
المفاتيح الخاضعة للإشراف (راجع المستند
as_supervised
):('gl_pt', 'en')
أمثلة ( tfds.as_dataframe ):
ted_hrlr_translate / he_to_pt
وصف التكوين : مجموعة بيانات الترجمة من هو إلى نقطة في نص عادي.
حجم مجموعة البيانات :
11.71 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 1،623 |
'train' | 48511 |
'validation' | 1145 |
- هيكل الميزة :
Translation({
'he': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
هو | نص | خيط | ||
نقطة | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('he', 'pt')
أمثلة ( tfds.as_dataframe ):
ted_hrlr_translate / it_to_pt
وصف التكوين : مجموعة بيانات الترجمة منه إلى نقطة في نص عادي.
حجم مجموعة البيانات :
9.94 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 1،669 |
'train' | 46259 |
'validation' | 1162 |
- هيكل الميزة :
Translation({
'it': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
هو - هي | نص | خيط | ||
نقطة | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('it', 'pt')
أمثلة ( tfds.as_dataframe ):
ted_hrlr_translate / pt_to_ar
وصف التكوين : مجموعة بيانات الترجمة من pt إلى en في نص عادي.
حجم مجموعة البيانات :
10.89 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 1،803 |
'train' | 51785 |
'validation' | 1،193 |
- هيكل الميزة :
Translation({
'en': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
en | نص | خيط | ||
نقطة | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('pt', 'en')
أمثلة ( tfds.as_dataframe ):
ted_hrlr_translate / ru_to_ar
وصف التكوين : مجموعة بيانات الترجمة من ru إلى en بنص عادي.
حجم مجموعة البيانات :
63.22 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 5،476 |
'train' | 208106 |
'validation' | 4805 |
- هيكل الميزة :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
en | نص | خيط | ||
ru | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('ru', 'en')
أمثلة ( tfds.as_dataframe ):
ted_hrlr_translate / ru_to_pt
وصف التكوين : مجموعة بيانات الترجمة من ru إلى pt بنص عادي.
حجم مجموعة البيانات :
13.00 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 1،588 |
'train' | 47278 |
'validation' | 1،184 |
- هيكل الميزة :
Translation({
'pt': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
نقطة | نص | خيط | ||
ru | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('ru', 'pt')
أمثلة ( tfds.as_dataframe ):
ted_hrlr_translate / tr_to_ar
وصف التكوين : مجموعة بيانات الترجمة من tr إلى ar بنص عادي.
حجم مجموعة البيانات :
42.33 MiB
الانقسامات :
ينقسم | أمثلة |
---|---|
'test' | 5،029 |
'train' | 182450 |
'validation' | 4045 |
- هيكل الميزة :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
en | نص | خيط | ||
آر | نص | خيط |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('tr', 'en')
أمثلة ( tfds.as_dataframe ):