assin2

توضیحات :

زمینه سازی

ASSIN 2 دومین نسخه از Avaliação de Similaridade Semântica e Inferência Textual (ارزیابی تشابه معنایی و دلبستگی متنی) است و کارگاهی با STIL 2019 بود. این نسخه از اولین نسخه ASSIN را دنبال می کند و یک کار مشترک جدید با داده های جدید را پیشنهاد می کند.

این کارگاه سیستم هایی را ارزیابی کرد که دو نوع رابطه بین دو جمله را ارزیابی می کند: تشابه متنی معنایی و دلبستگی متنی.

تشابه متنی معنایی شامل کمی کردن سطح هم ارزی معنایی بین جملات است، در حالی که تشخیص دلالت متنی شامل طبقه بندی اینکه آیا جمله اول مستلزم دومی است یا خیر.

داده ها

مجموعه مورد استفاده در ASSIN 2 از جملات نسبتاً ساده تشکیل شده است. با پیروی از رویه‌های SemEval 2014 Task 1، سعی کردیم از مجموعه موجودیت‌های نام‌گذاری شده و گفتار غیرمستقیم حذف کنیم و سعی کردیم همه افعال را در زمان حال داشته باشیم. دستورالعمل های حاشیه نویسی داده شده به حاشیه نویس ها (به زبان پرتغالی) موجود است.

داده‌های آموزشی و اعتبارسنجی به ترتیب از 6500 و 500 جفت جمله در پرتغالی برزیل تشکیل شده‌اند که برای دلالت و تشابه معنایی حاشیه‌نویسی شده‌اند. مقادیر تشابه معنایی از 1 تا 5 متغیر است و کلاس‌های مستلزم متن یا مستلزم یا هیچ هستند. داده های آزمون از حدود 3000 جفت جمله با حاشیه نویسی یکسان تشکیل شده است. همه داده ها به صورت دستی حاشیه نویسی شدند.

ارزیابی

ارزیابی ارزیابی ارسال‌ها به ASSIN 2 با معیارهای مشابه با اولین ASSIN، با F1 دقت و یادآوری به عنوان معیار اصلی برای مستلزم متن و همبستگی پیرسون برای شباهت معنایی بود. اسکریپت های ارزیابی مانند نسخه گذشته است.

PS.: توضیحات از صفحه اصلی رسمی استخراج شده است.

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://sites.google.com/view/assin2/english
کد منبع : tfds.datasets.assin2.Builder
نسخه ها :
- 1.0.0 (پیش فرض): انتشار اولیه.
حجم دانلود : 2.02 MiB
حجم مجموعه داده : 1.82 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'test'`	2,448
`'train'`	6500
`'validation'`	500

ساختار ویژگی :

FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=string),
    'id': int32,
    'similarity': float32,
    'text': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
مستلزم	ClassLabel	int64
فرضیه	متن	رشته
شناسه	تانسور	int32
شباهت	تانسور	float32
متن	متن	رشته

کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

assin2 با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

زمینه سازی

داده ها

ارزیابی

assin2