- תיאור :
קונטקסטואליזציה
ASSIN 2 היא המהדורה השנייה של Avaliação de Similaridade Semântica e Inferência Textual (הערכת דמיון סמנטי והיכרות טקסטואלית), והייתה סדנה שנעשתה יחד עם STIL 2019 . זה עוקב אחר המהדורה הראשונה של ASSIN , המציעה משימה משותפת חדשה עם נתונים חדשים.
הסדנה העריכה מערכות שמעריכות שני סוגים של קשרים בין שני משפטים: דמיון טקסטואלי סמנטי והשלכות טקסטואלית.
דמיון טקסטואלי סמנטי מורכב מכימות רמת השקילות הסמנטית בין משפטים, בעוד שזיהוי טקסטואלי מורכב מסיווג האם המשפט הראשון כרוך במשפט השני.
נתונים
הקורפוס המשמש ב-ASSIN 2 מורכב ממשפטים פשוטים למדי. בעקבות הנהלים של SemEval 2014 משימה 1, ניסינו להסיר מהקורפוס ישויות שמות ודיבור עקיף, וניסינו לקבל את כל הפעלים בזמן הווה. הוראות ההערות שניתנו למפרשים זמינות (בפורטוגזית).
נתוני ההכשרה והאימות מורכבים, בהתאמה, מ-6,500 ו-500 זוגות משפטים בפורטוגזית ברזילאית, עם הערות לצורך שילוב ודמיון סמנטי. ערכי דמיון סמנטי נעים בין 1 ל-5, ומחלקות שילוב של טקסט הן או אינטלמנט או אין. נתוני הבדיקה מורכבים מכ-3,000 זוגות משפטים עם אותה ביאור. כל הנתונים סומנו באופן ידני.
הַעֲרָכָה
הערכה ההערכה של הגשות ל-ASSIN 2 הייתה עם אותם מדדים כמו ה-ASSIN הראשון, כאשר המדד F1 של דיוק וזיכרונות הוא המדד העיקרי להבאת טקסט וקורלציה של פירסון לדמיון סמנטי. תסריטי ההערכה זהים למהדורה האחרונה.
נ.ב.: התיאור מופק מדף הבית הרשמי .
תיעוד נוסף : חקור על ניירות עם קוד
קוד מקור :
tfds.datasets.assin2.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
2.02 MiB
גודל מערך נתונים :
1.82 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,448 |
'train' | 6,500 |
'validation' | 500 |
- מבנה תכונה :
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=string),
'id': int32,
'similarity': float32,
'text': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
מעורבות | ClassLabel | int64 | ||
הַשׁעָרָה | טֶקסט | חוּט | ||
תְעוּדַת זֶהוּת | מוֹתֵחַ | int32 | ||
דִמיוֹן | מוֹתֵחַ | לצוף32 | ||
טֶקסט | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}