- الوصف :
OPUS عبارة عن مجموعة من النصوص المترجمة من الويب.
قم بإنشاء التكوين الخاص بك لاختيار زوج البيانات / اللغة المراد تحميله.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : http://opus.nlpl.eu/
كود المصدر :
tfds.datasets.opus.Builder
إصدارات :
-
0.1.0
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
هيكل الميزة :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
ترجمة | ||||
دي | نص | سلسلة | ||
en | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر
as_supervised
doc ):('de', 'en')
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus / medical (التكوين الافتراضي)
وصف التكوين : المستندات الطبية
حجم التحميل :
34.29 MiB
حجم مجموعة البيانات :
188.85 MiB
التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون
shuffle_files=False
(قطار)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 1،108،752 |
- أمثلة ( tfds.as_dataframe ):
التأليف / القانون
وصف التكوين : وثائق القانون
حجم التحميل :
46.99 MiB
حجم مجموعة البيانات :
214.44 MiB
التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون
shuffle_files=False
(قطار)الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 719372 |
- أمثلة ( tfds.as_dataframe ):
التأليف / القرآن
وصف التكوين : وثائق القرآن
حجم التحميل :
35.42 MiB
حجم مجموعة البيانات :
117.54 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 537128 |
- أمثلة ( tfds.as_dataframe ):
التأليف / تكنولوجيا المعلومات
وصف التكوين : وثائق تكنولوجيا المعلومات
حجم التحميل :
10.33 MiB
حجم مجموعة البيانات :
42.51 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 347،817 |
- أمثلة ( tfds.as_dataframe ):
التأليف / الترجمة
وصف التكوين : وثائق الترجمة
حجم التحميل :
677.64 MiB
حجم مجموعة البيانات :
2.01 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 22.512.639 |
- أمثلة ( tfds.as_dataframe ):