التأليف

  • الوصف :

OPUS عبارة عن مجموعة من النصوص المترجمة من الويب.

قم بإنشاء التكوين الخاص بك لاختيار زوج البيانات / اللغة المراد تحميله.

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
ترجمة
دي نص سلسلة
en نص سلسلة
@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

opus / medical (التكوين الافتراضي)

  • وصف التكوين : المستندات الطبية

  • حجم التحميل : 34.29 MiB

  • حجم مجموعة البيانات : 188.85 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'train' 1،108،752

التأليف / القانون

  • وصف التكوين : وثائق القانون

  • حجم التحميل : 46.99 MiB

  • حجم مجموعة البيانات : 214.44 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'train' 719372

التأليف / القرآن

  • وصف التكوين : وثائق القرآن

  • حجم التحميل : 35.42 MiB

  • حجم مجموعة البيانات : 117.54 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 537128

التأليف / تكنولوجيا المعلومات

  • وصف التكوين : وثائق تكنولوجيا المعلومات

  • حجم التحميل : 10.33 MiB

  • حجم مجموعة البيانات : 42.51 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 347،817

التأليف / الترجمة

  • وصف التكوين : وثائق الترجمة

  • حجم التحميل : 677.64 MiB

  • حجم مجموعة البيانات : 2.01 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'train' 22.512.639