- الوصف :
ترجمة مجموعة البيانات بناءً على البيانات من statmt.org.
توجد إصدارات لسنوات مختلفة باستخدام مجموعة من مصادر البيانات المتعددة. يسمح لك wmt_translate
الأساسي بإنشاء التكوين الخاص بك لاختيار زوج البيانات / اللغة الخاص بك عن طريق إنشاء tfds.translate.wmt.WmtConfig
مخصص.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : http://www.statmt.org/wmt15/translation-task.html
كود المصدر :
tfds.translate.Wmt15Translate
إصدارات :
-
1.0.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى
download_config.manual_dir
(الإعدادات الافتراضية على~/tensorflow_datasets/downloads/manual/
):
تتطلب بعض تكوينات wmt هنا تنزيلًا يدويًا. يرجى البحث في wmt.py لمعرفة المسار الدقيق (واسم الملف) الذي يجب تنزيله.التخزين المؤقت التلقائي ( التوثيق ): لا
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@InProceedings{bojar-EtAl:2015:WMT,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Haddow, Barry and Huck, Matthias and Hokamp, Chris and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Scarton, Carolina and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2015 Workshop on Statistical Machine Translation},
booktitle = {Proceedings of the Tenth Workshop on Statistical Machine Translation},
month = {September},
year = {2015},
address = {Lisbon, Portugal},
publisher = {Association for Computational Linguistics},
pages = {1--46},
url = {http://aclweb.org/anthology/W15-3001}
}
wmt15_translate / cs-en (التكوين الافتراضي)
وصف التكوين : مجموعة بيانات مهمة الترجمة WMT 2015 cs-en.
حجم التحميل :
1.62 GiB
حجم مجموعة البيانات :
2.89 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2656 |
'train' | 15،793،126 |
'validation' | 3003 |
- هيكل الميزة :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
CS | نص | سلسلة | ||
en | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('cs', 'en')
أمثلة ( tfds.as_dataframe ):
wmt15_translate / de-en
وصف التكوين : مجموعة بيانات مهمة ترجمة WMT 2015 de-en.
حجم التحميل :
1.62 GiB
حجم مجموعة البيانات :
1.37 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2،169 |
'train' | 4،522،998 |
'validation' | 3003 |
- هيكل الميزة :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
دي | نص | سلسلة | ||
en | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('de', 'en')
أمثلة ( tfds.as_dataframe ):
wmt15_translate / fi-en
وصف التكوين : مجموعة بيانات WMT 2015 لمهمة ترجمة fi-en.
حجم التحميل :
260.51 MiB
حجم مجموعة البيانات :
623.22 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،370 |
'train' | 2،073،394 |
'validation' | 1500 |
- هيكل الميزة :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
en | نص | سلسلة | ||
فاي | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('fi', 'en')
أمثلة ( tfds.as_dataframe ):
wmt15_translate / fr-en
وصف التكوين : مجموعة بيانات مهمة الترجمة WMT 2015 fr-en.
حجم التحميل :
6.24 GiB
حجم مجموعة البيانات :
14.65 GiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1500 |
'train' | 40،853،298 |
'validation' | 4،503 |
- هيكل الميزة :
Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
en | نص | سلسلة | ||
الاب | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('fr', 'en')
أمثلة ( tfds.as_dataframe ):
wmt15_translate / ru-en
وصف التكوين : مجموعة بيانات مهمة الترجمة WMT 2015 ru-en.
حجم التحميل :
1.02 GiB
حجم مجموعة البيانات :
843.90 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2،818 |
'train' | 2،495،081 |
'validation' | 3003 |
- هيكل الميزة :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
en | نص | سلسلة | ||
ru | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('ru', 'en')
أمثلة ( tfds.as_dataframe ):