- الوصف :
تحديد الجمل المتوازية في النصوص المماثلة. بالنظر إلى جملتين أحاديتين اللغة مقسمتين للجملة ، من المتوقع أن تحدد أنظمة المشاركين أزواج من الجمل التي هي ترجمات لبعضها البعض.
مهمة التعدين BUCC هي مهمة مشتركة في استخراج الجمل المتوازية من مجموعتين أحاديتي اللغة مع مجموعة فرعية منها يفترض أن تكون متوازية ، والتي كانت متاحة منذ عام 2016. لكل زوج لغوي ، توفر المهمة المشتركة مجموعة أحادي اللغة لكل لغة و قائمة خرائط ذهبية تحتوي على أزواج ترجمة حقيقية. هذه الأزواج هي الحقيقة الأساسية. المهمة هي إنشاء قائمة من أزواج الترجمة من مجموعة أحادية اللغة. تتم مقارنة القائمة التي تم إنشاؤها بالحقيقة الأساسية ، ويتم تقييمها من حيث مقياس F1.
الصفحة الرئيسية : https://comparable.limsi.fr/bucc2018/
كود المصدر :
tfds.datasets.bucc.Builder
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
التخزين المؤقت التلقائي ( الوثائق ): نعم
هيكل الميزة :
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
source_id | نص | سلسلة | ||
المصدر | نص | سلسلة | ||
target_id | نص | سلسلة | ||
target_sentence | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc / bucc_de (التكوين الافتراضي)
حجم التحميل :
29.30 MiB
حجم مجموعة البيانات :
3.21 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 9580 |
'validation' | 1038 |
- أمثلة ( tfds.as_dataframe ):
bucc / bucc_fr
حجم التحميل :
21.65 MiB
حجم مجموعة البيانات :
2.90 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 9086 |
'validation' | 929 |
- أمثلة ( tfds.as_dataframe ):
bucc / bucc_zh
حجم التحميل :
6.79 MiB
حجم مجموعة البيانات :
615.20 KiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 1،899 |
'validation' | 257 |
- أمثلة ( tfds.as_dataframe ):
bucc / bucc_ru
حجم التحميل :
39.44 MiB
حجم مجموعة البيانات :
6.36 MiB
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 14،435 |
'validation' | 2،374 |
- أمثلة ( tfds.as_dataframe ):