assin2

विवरण :

प्रासंगिकता

ASSIN 2 Avaliação de Sameridade Semântica e Inferência Textual (मूल्यांकन सिमेंटिक समानता और टेक्स्टुअल एनटेलमेंट) का दूसरा संस्करण है, और STIL 2019 के साथ मिलकर एक कार्यशाला थी। यह ASSIN के पहले संस्करण का अनुसरण करता है, नए डेटा के साथ एक नया साझा कार्य प्रस्तावित करता है।

कार्यशाला ने उन प्रणालियों का मूल्यांकन किया जो दो वाक्यों के बीच दो प्रकार के संबंधों का आकलन करती हैं: सिमेंटिक टेक्स्टुअल समानता और टेक्स्टुअल एनटेलमेंट।

सिमेंटिक टेक्स्टुअल समानता में वाक्यों के बीच सिमेंटिक समानता के स्तर को मापना शामिल है, जबकि टेक्स्टुअल एनटेलमेंट रिकॉग्निशन में यह वर्गीकृत करना शामिल है कि क्या पहला वाक्य दूसरे पर जोर देता है।

जानकारी

ASSIN 2 में प्रयुक्त कोष अपेक्षाकृत सरल वाक्यों से बना है। SemEval 2014 टास्क 1 की प्रक्रियाओं का पालन करते हुए, हमने कॉर्पस नाम की संस्थाओं और अप्रत्यक्ष भाषण को हटाने की कोशिश की, और वर्तमान काल में सभी क्रियाओं को करने की कोशिश की। एनोटेटर्स को दिए गए एनोटेशन निर्देश उपलब्ध हैं (पुर्तगाली में)।

प्रशिक्षण और सत्यापन डेटा ब्राजीलियाई पुर्तगाली में क्रमशः 6,500 और 500 वाक्य जोड़े से बना है, जो प्रवेश और शब्दार्थ समानता के लिए एनोटेट किया गया है। शब्दार्थ समानता मान 1 से 5 तक होते हैं, और पाठ प्रवेश वर्ग या तो प्रवेश या कोई नहीं होता है। परीक्षण डेटा समान एनोटेशन के साथ लगभग 3,000 वाक्य जोड़े से बना है। सभी डेटा मैन्युअल रूप से एनोटेट किए गए थे।

मूल्यांकन

मूल्यांकन ASSIN 2 को सबमिशन का मूल्यांकन पहले ASSIN के समान मेट्रिक्स के साथ था, जिसमें सटीक और रिकॉल का F1 टेक्स्ट एंटेलमेंट के लिए मुख्य मेट्रिक के रूप में था और सिमेंटिक समानता के लिए पियर्सन सहसंबंध था। मूल्यांकन स्क्रिप्ट पिछले संस्करण के समान ही हैं।

पीएस .: विवरण आधिकारिक होमपेज से निकाला गया है।

अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : https://sites.google.com/view/assin2/english
स्रोत कोड : tfds.datasets.assin2.Builder
संस्करण :
- 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
डाउनलोड आकार : 2.02 MiB
डेटासेट का आकार : 1.82 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :

विभाजित करना	उदाहरण
`'test'`	2,448
`'train'`	6,500
`'validation'`	500

फ़ीचर संरचना :

FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=string),
    'id': int32,
    'similarity': float32,
    'text': Text(shape=(), dtype=string),
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
अनुलाग	क्लासलेबल	int64
परिकल्पना	मूलपाठ	डोरी
पहचान	टेन्सर	int32
समानता	टेन्सर	फ्लोट32
मूलपाठ	मूलपाठ	डोरी

पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):

उद्धरण :

@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

assin2 संग्रह की मदद से व्यवस्थित रहें अपनी प्राथमिकताओं के आधार पर, कॉन्टेंट को सेव करें और कैटगरी में बांटें.

प्रासंगिकता

जानकारी

मूल्यांकन

assin2