- विवरण :
प्रासंगिकता
ASSIN 2 Avaliação de Sameridade Semântica e Inferência Textual (मूल्यांकन सिमेंटिक समानता और टेक्स्टुअल एनटेलमेंट) का दूसरा संस्करण है, और STIL 2019 के साथ मिलकर एक कार्यशाला थी। यह ASSIN के पहले संस्करण का अनुसरण करता है, नए डेटा के साथ एक नया साझा कार्य प्रस्तावित करता है।
कार्यशाला ने उन प्रणालियों का मूल्यांकन किया जो दो वाक्यों के बीच दो प्रकार के संबंधों का आकलन करती हैं: सिमेंटिक टेक्स्टुअल समानता और टेक्स्टुअल एनटेलमेंट।
सिमेंटिक टेक्स्टुअल समानता में वाक्यों के बीच सिमेंटिक समानता के स्तर को मापना शामिल है, जबकि टेक्स्टुअल एनटेलमेंट रिकॉग्निशन में यह वर्गीकृत करना शामिल है कि क्या पहला वाक्य दूसरे पर जोर देता है।
जानकारी
ASSIN 2 में प्रयुक्त कोष अपेक्षाकृत सरल वाक्यों से बना है। SemEval 2014 टास्क 1 की प्रक्रियाओं का पालन करते हुए, हमने कॉर्पस नाम की संस्थाओं और अप्रत्यक्ष भाषण को हटाने की कोशिश की, और वर्तमान काल में सभी क्रियाओं को करने की कोशिश की। एनोटेटर्स को दिए गए एनोटेशन निर्देश उपलब्ध हैं (पुर्तगाली में)।
प्रशिक्षण और सत्यापन डेटा ब्राजीलियाई पुर्तगाली में क्रमशः 6,500 और 500 वाक्य जोड़े से बना है, जो प्रवेश और शब्दार्थ समानता के लिए एनोटेट किया गया है। शब्दार्थ समानता मान 1 से 5 तक होते हैं, और पाठ प्रवेश वर्ग या तो प्रवेश या कोई नहीं होता है। परीक्षण डेटा समान एनोटेशन के साथ लगभग 3,000 वाक्य जोड़े से बना है। सभी डेटा मैन्युअल रूप से एनोटेट किए गए थे।
मूल्यांकन
मूल्यांकन ASSIN 2 को सबमिशन का मूल्यांकन पहले ASSIN के समान मेट्रिक्स के साथ था, जिसमें सटीक और रिकॉल का F1 टेक्स्ट एंटेलमेंट के लिए मुख्य मेट्रिक के रूप में था और सिमेंटिक समानता के लिए पियर्सन सहसंबंध था। मूल्यांकन स्क्रिप्ट पिछले संस्करण के समान ही हैं।
पीएस .: विवरण आधिकारिक होमपेज से निकाला गया है।
स्रोत कोड :
tfds.datasets.assin2.Builder
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): प्रारंभिक रिलीज़।
-
डाउनलोड आकार :
2.02 MiB
डेटासेट का आकार :
1.82 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,448 |
'train' | 6,500 |
'validation' | 500 |
- फ़ीचर संरचना :
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=string),
'id': int32,
'similarity': float32,
'text': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
अनुलाग | क्लासलेबल | int64 | ||
परिकल्पना | मूलपाठ | डोरी | ||
पहचान | टेन्सर | int32 | ||
समानता | टेन्सर | फ्लोट32 | ||
मूलपाठ | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}