- توضیحات :
زمینه سازی
ASSIN 2 دومین نسخه از Avaliação de Similaridade Semântica e Inferência Textual (ارزیابی تشابه معنایی و دلبستگی متنی) است و کارگاهی با STIL 2019 بود. این نسخه از اولین نسخه ASSIN را دنبال می کند و یک کار مشترک جدید با داده های جدید را پیشنهاد می کند.
این کارگاه سیستم هایی را ارزیابی کرد که دو نوع رابطه بین دو جمله را ارزیابی می کند: تشابه متنی معنایی و دلبستگی متنی.
تشابه متنی معنایی شامل کمی کردن سطح هم ارزی معنایی بین جملات است، در حالی که تشخیص دلالت متنی شامل طبقه بندی اینکه آیا جمله اول مستلزم دومی است یا خیر.
داده ها
مجموعه مورد استفاده در ASSIN 2 از جملات نسبتاً ساده تشکیل شده است. با پیروی از رویههای SemEval 2014 Task 1، سعی کردیم از مجموعه موجودیتهای نامگذاری شده و گفتار غیرمستقیم حذف کنیم و سعی کردیم همه افعال را در زمان حال داشته باشیم. دستورالعمل های حاشیه نویسی داده شده به حاشیه نویس ها (به زبان پرتغالی) موجود است.
دادههای آموزشی و اعتبارسنجی به ترتیب از 6500 و 500 جفت جمله در پرتغالی برزیل تشکیل شدهاند که برای دلالت و تشابه معنایی حاشیهنویسی شدهاند. مقادیر تشابه معنایی از 1 تا 5 متغیر است و کلاسهای مستلزم متن یا مستلزم یا هیچ هستند. داده های آزمون از حدود 3000 جفت جمله با حاشیه نویسی یکسان تشکیل شده است. همه داده ها به صورت دستی حاشیه نویسی شدند.
ارزیابی
ارزیابی ارزیابی ارسالها به ASSIN 2 با معیارهای مشابه با اولین ASSIN، با F1 دقت و یادآوری به عنوان معیار اصلی برای مستلزم متن و همبستگی پیرسون برای شباهت معنایی بود. اسکریپت های ارزیابی مانند نسخه گذشته است.
PS.: توضیحات از صفحه اصلی رسمی استخراج شده است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://sites.google.com/view/assin2/english
کد منبع :
tfds.datasets.assin2.Builder
نسخه ها :
-
1.0.0
(پیش فرض): انتشار اولیه.
-
حجم دانلود :
2.02 MiB
حجم مجموعه داده :
1.82 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2,448 |
'train' | 6500 |
'validation' | 500 |
- ساختار ویژگی :
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=string),
'id': int32,
'similarity': float32,
'text': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
مستلزم | ClassLabel | int64 | ||
فرضیه | متن | رشته | ||
شناسه | تانسور | int32 | ||
شباهت | تانسور | float32 | ||
متن | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}