wmt19_translate

  • الوصف :

ترجمة مجموعة البيانات بناءً على البيانات من statmt.org.

توجد إصدارات لسنوات مختلفة باستخدام مجموعة من مصادر البيانات المتعددة. يسمح لك wmt_translate الأساسي بإنشاء التكوين الخاص بك لاختيار زوج البيانات / اللغة الخاص بك عن طريق إنشاء tfds.translate.wmt.WmtConfig مخصص.

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • الصفحة الرئيسية : http://www.statmt.org/wmt19/translation-task.html

  • كود المصدر : tfds.translate.Wmt19Translate

  • إصدارات :

    • 1.0.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    تتطلب بعض تكوينات wmt هنا تنزيلًا يدويًا. يرجى البحث في wmt.py لمعرفة المسار الدقيق (واسم الملف) الذي يجب تنزيله.

  • الشكل ( tfds.show_examples ): غير مدعوم.

  • الاقتباس :

@ONLINE {wmt19translate,
    author = "Wikimedia Foundation",
    title  = "ACL 2019 Fourth Conference on Machine Translation (WMT19), Shared Task: Machine Translation of News",
    url    = "http://www.statmt.org/wmt19/translation-task.html"
}

wmt19_translate / cs-en (التكوين الافتراضي)

  • وصف التكوين : مجموعة بيانات مهمة الترجمة WMT 2019 cs-en.

  • حجم التحميل : 1.88 GiB

  • حجم مجموعة البيانات : 3.64 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 20246548
'validation' 2،983
  • هيكل الميزة :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
CS نص سلسلة
en نص سلسلة

wmt19_translate / de-en

  • وصف التكوين : مجموعة بيانات مهمة ترجمة WMT 2019 de-en.

  • حجم التحميل : 9.71 GiB

  • حجم مجموعة البيانات : 8.60 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 38690334
'validation' 2،998
  • هيكل الميزة :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
دي نص سلسلة
en نص سلسلة

wmt19_translate / fi-en

  • وصف التكوين : WMT 2019 مجموعة بيانات مهام الترجمة fi-en.

  • حجم التحميل : 959.46 MiB

  • حجم مجموعة البيانات : 1.46 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 6،587،448
'validation' 3000
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
فاي نص سلسلة

wmt19_translate / gu-en

  • وصف التكوين : مجموعة بيانات مهمة الترجمة GU-en WMT 2019.

  • حجم التحميل : 37.03 MiB

  • حجم مجموعة البيانات : 1.55 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 11،670
'validation' 1998
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'gu': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
غو نص سلسلة

wmt19_translate / kk-en

  • وصف التكوين : مجموعة بيانات مهمة الترجمة WMT 2019 kk-en.

  • حجم التحميل : 39.58 MiB

  • حجم مجموعة البيانات : 11.82 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 126،583
'validation' 2066
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'kk': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
ك ك نص سلسلة

wmt19_translate / lt-en

  • وصف التكوين : مجموعة بيانات مهمة ترجمة WMT 2019 lt-en.

  • حجم التحميل : 392.20 MiB

  • حجم مجموعة البيانات : 537.26 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 2،344،893
'validation' 2000
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'lt': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
لتر نص سلسلة

wmt19_translate / ru-en

  • وصف التكوين : مجموعة بيانات مهمة الترجمة WMT 2019 ru-en.

  • حجم التحميل : 1.57 GiB

  • حجم مجموعة البيانات : 13.95 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 38492126
'validation' 3000
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
ru نص سلسلة

wmt19_translate / zh-en

  • وصف التكوين : مجموعة بيانات مهمة الترجمة WMT 2019 zh-en.

  • حجم التحميل : 770.91 MiB

  • حجم مجموعة البيانات : 6.49 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 25986436
'validation' 3،981
  • هيكل الميزة :
Translation({
    'en': Text(shape=(), dtype=string),
    'zh': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
en نص سلسلة
zh نص سلسلة

wmt19_translate / fr-de

  • وصف التكوين : WMT 2019 مجموعة بيانات مهمة الترجمة fr-de.

  • حجم التحميل : 722.20 MiB

  • حجم مجموعة البيانات : 2.39 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 9،824،476
'validation' 1،512
  • هيكل الميزة :
Translation({
    'de': Text(shape=(), dtype=string),
    'fr': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
دي نص سلسلة
الاب نص سلسلة