- বর্ণনা :
প্রাসঙ্গিককরণ
ASSIN 2 হল Avaliação de Similaridade Semantica e Inferência Textual এর দ্বিতীয় সংস্করণ (অর্থবোধক সাদৃশ্য এবং টেক্সচুয়াল এনটেইলমেন্টের মূল্যায়ন), এবং এটি STIL 2019 -এর সাথে একত্রিত একটি কর্মশালা ছিল। এটি ASSIN এর প্রথম সংস্করণ অনুসরণ করে, নতুন ডেটা সহ একটি নতুন ভাগ করা টাস্ক প্রস্তাব করে৷
কর্মশালাটি মূল্যায়ন করা সিস্টেমগুলি যা দুটি বাক্যের মধ্যে দুটি ধরণের সম্পর্কের মূল্যায়ন করে: শব্দার্থ টেক্সচুয়াল মিল এবং টেক্সচুয়াল এনটেইলমেন্ট।
শব্দার্থিক টেক্সচুয়াল সাদৃশ্য বাক্যগুলির মধ্যে শব্দার্থিক সমতুলতার স্তরের পরিমাণ নির্ধারণ করে, যখন টেক্সচুয়াল এনটেইলমেন্ট রিকগনিশন প্রথম বাক্যটি দ্বিতীয়টি অন্তর্ভুক্ত করে কিনা তা শ্রেণিবদ্ধ করে।
ডেটা
ASSIN 2-এ ব্যবহৃত কর্পাসটি বরং সাধারণ বাক্য দ্বারা গঠিত। SemEval 2014 টাস্ক 1 এর পদ্ধতি অনুসরণ করে, আমরা কর্পাস নামক সত্তা এবং অপ্রত্যক্ষ বক্তৃতা থেকে সরানোর চেষ্টা করেছি এবং বর্তমান কালের সমস্ত ক্রিয়াপদ রাখার চেষ্টা করেছি। টীকাকারদের দেওয়া টীকা নির্দেশাবলী উপলব্ধ (পর্তুগিজ ভাষায়)।
প্রশিক্ষণ এবং যাচাইকরণের ডেটা ব্রাজিলিয়ান পর্তুগিজ ভাষায় যথাক্রমে 6,500 এবং 500 বাক্য জোড়ার সমন্বয়ে গঠিত, যা এনটেলমেন্ট এবং শব্দার্থিক মিলের জন্য টীকা করা হয়েছে। শব্দার্থগত সাদৃশ্যের মান 1 থেকে 5 পর্যন্ত, এবং টেক্সট এনটেইলমেন্ট ক্লাসগুলি হয় এনটেইলমেন্ট বা কিছুই নয়। পরীক্ষার ডেটা একই টীকা সহ প্রায় 3,000 বাক্য জোড়া নিয়ে গঠিত। সমস্ত ডেটা ম্যানুয়ালি টীকা করা হয়েছিল।
মূল্যায়ন
মূল্যায়ন ASSIN 2-এ জমা দেওয়ার মূল্যায়ন প্রথম ASSIN-এর মতো একই মেট্রিক্সের সাথে, টেক্সট এনটেইলমেন্টের প্রধান মেট্রিক এবং শব্দার্থগত মিলের জন্য পিয়ারসন পারস্পরিক সম্পর্ক হিসাবে নির্ভুলতা এবং রিকলের F1 সহ। মূল্যায়নের স্ক্রিপ্টগুলি গত সংস্করণের মতোই।
PS.: বর্ণনাটি অফিসিয়াল হোমপেজ থেকে নেওয়া হয়েছে।
সোর্স কোড :
tfds.datasets.assin2.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড আকার :
2.02 MiB
ডেটাসেটের আকার :
1.82 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 2,448 |
'train' | ৬,৫০০ |
'validation' | 500 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=string),
'id': int32,
'similarity': float32,
'text': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
entailment | ক্লাসলেবেল | int64 | ||
অনুমান | পাঠ্য | স্ট্রিং | ||
আইডি | টেনসর | int32 | ||
মিল | টেনসর | float32 | ||
পাঠ্য | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}