- الوصف :
السياق
ASSIN 2 هو الإصدار الثاني من Avaliação de Similaridade Semântica e Inferência Textual (تقييم التشابه الدلالي والاستنتاج النصي) ، وكان عبارة عن ورشة عمل بالتعاون مع STIL 2019 . يتبع الإصدار الأول من ASSIN ، ويقترح مهمة مشتركة جديدة ببيانات جديدة.
قيمت ورشة العمل الأنظمة التي تقيم نوعين من العلاقات بين جملتين: تشابه النص الدلالي والاستنتاج النصي.
يتكون تشابه النص الدلالي من تحديد مستوى التكافؤ الدلالي بين الجمل ، بينما يتكون التعرف على الاستنتاج النصي من تصنيف ما إذا كانت الجملة الأولى تستلزم الثانية.
بيانات
تتكون المجموعة المستخدمة في ASSIN 2 من جمل بسيطة إلى حد ما. باتباع إجراءات SemEval 2014 Task 1 ، حاولنا إزالة الكيانات المسماة والكلام غير المباشر من المجموعة ، وحاولنا الحصول على جميع الأفعال في المضارع. تتوفر تعليمات الشرح المقدمة للمعلقين (باللغة البرتغالية).
تتكون بيانات التدريب والتحقق من الصحة ، على التوالي ، من 6500 و 500 زوج من الجمل بالبرتغالية البرازيلية ، مشروحة للتشابه الدلالي. تتراوح قيم التشابه الدلالي من 1 إلى 5 ، والفئات التي تنطوي على النص إما ضمنية أو لا شيء. تتكون بيانات الاختبار من حوالي 3000 زوج من الجمل مع نفس التعليق التوضيحي. تم شرح جميع البيانات يدويًا.
تقييم
التقييم كان تقييم الطلبات المقدمة إلى ASSIN 2 بنفس المقاييس مثل ASSIN الأول ، مع F1 للدقة والاستدعاء كمقياس رئيسي لاستتبع النص وعلاقة Pearson للتشابه الدلالي. نصوص التقييم هي نفسها كما في الإصدار الأخير.
ملاحظة: الوصف مستخرج من الصفحة الرئيسية الرسمية .
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://sites.google.com/view/assin2/english
كود المصدر :
tfds.datasets.assin2.Builder
إصدارات :
-
1.0.0
(افتراضي): الإصدار الأولي.
-
حجم التحميل :
2.02 MiB
حجم مجموعة البيانات :
1.82 MiB
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 2448 |
'train' | 6500 |
'validation' | 500 |
- هيكل الميزة :
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=string),
'id': int32,
'similarity': float32,
'text': Text(shape=(), dtype=string),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
يستتبع | ClassLabel | int64 | ||
فرضية | نص | سلسلة | ||
هوية شخصية | موتر | int32 | ||
تشابه | موتر | تعويم 32 | ||
نص | نص | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}