assin2

  • توضیحات :

زمینه سازی

ASSIN 2 دومین نسخه از Avaliação de Similaridade Semântica e Inferência Textual (ارزیابی تشابه معنایی و دلبستگی متنی) است و کارگاهی با STIL 2019 بود. این نسخه از اولین نسخه ASSIN را دنبال می کند و یک کار مشترک جدید با داده های جدید را پیشنهاد می کند.

این کارگاه سیستم هایی را ارزیابی کرد که دو نوع رابطه بین دو جمله را ارزیابی می کند: تشابه متنی معنایی و دلبستگی متنی.

تشابه متنی معنایی شامل کمی کردن سطح هم ارزی معنایی بین جملات است، در حالی که تشخیص دلالت متنی شامل طبقه بندی اینکه آیا جمله اول مستلزم دومی است یا خیر.

داده ها

مجموعه مورد استفاده در ASSIN 2 از جملات نسبتاً ساده تشکیل شده است. با پیروی از رویه‌های SemEval 2014 Task 1، سعی کردیم از مجموعه موجودیت‌های نام‌گذاری شده و گفتار غیرمستقیم حذف کنیم و سعی کردیم همه افعال را در زمان حال داشته باشیم. دستورالعمل های حاشیه نویسی داده شده به حاشیه نویس ها (به زبان پرتغالی) موجود است.

داده‌های آموزشی و اعتبارسنجی به ترتیب از 6500 و 500 جفت جمله در پرتغالی برزیل تشکیل شده‌اند که برای دلالت و تشابه معنایی حاشیه‌نویسی شده‌اند. مقادیر تشابه معنایی از 1 تا 5 متغیر است و کلاس‌های مستلزم متن یا مستلزم یا هیچ هستند. داده های آزمون از حدود 3000 جفت جمله با حاشیه نویسی یکسان تشکیل شده است. همه داده ها به صورت دستی حاشیه نویسی شدند.

ارزیابی

ارزیابی ارزیابی ارسال‌ها به ASSIN 2 با معیارهای مشابه با اولین ASSIN، با F1 دقت و یادآوری به عنوان معیار اصلی برای مستلزم متن و همبستگی پیرسون برای شباهت معنایی بود. اسکریپت های ارزیابی مانند نسخه گذشته است.

PS.: توضیحات از صفحه اصلی رسمی استخراج شده است.

شکاف مثال ها
'test' 2,448
'train' 6500
'validation' 500
  • ساختار ویژگی :
FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=string),
    'id': int32,
    'similarity': float32,
    'text': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
مستلزم ClassLabel int64
فرضیه متن رشته
شناسه تانسور int32
شباهت تانسور float32
متن متن رشته
  • نقل قول :
@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}