- คำอธิบาย :
บริบท
ASSIN 2 เป็นรุ่นที่สองของ Avaliação de similaridade Semântica e Inferência Textual (Evaluating Semantic similarity and Textual Entailment) และเป็นเวิร์กช็อปที่จัดร่วมกับ STIL 2019 เป็นไปตาม รุ่นแรกของ ASSIN โดยเสนองานที่ใช้ร่วมกันใหม่พร้อมข้อมูลใหม่
การประชุมเชิงปฏิบัติการประเมินระบบที่ประเมินความสัมพันธ์สองประเภทระหว่างสองประโยค: ความคล้ายคลึงของข้อความเชิงความหมายและความเกี่ยวข้องของข้อความ
ความคล้ายคลึงกันของข้อความเชิงความหมายประกอบด้วยการวัดระดับความเท่าเทียมกันของความหมายระหว่างประโยค ในขณะที่การรู้จำข้อความประกอบประกอบด้วยการจำแนกว่าประโยคแรกเกี่ยวข้องกับประโยคที่สองหรือไม่
ข้อมูล
คลังข้อมูลที่ใช้ใน ASSIN 2 ประกอบด้วยประโยคที่ค่อนข้างง่าย ตามขั้นตอนของ SemEval 2014 Task 1 เราพยายามลบชื่อเอนทิตีและคำพูดทางอ้อมออกจากคลังข้อมูล และพยายามใช้คำกริยาทั้งหมดในปัจจุบันกาล มี คำแนะนำคำอธิบายประกอบ ที่มอบให้กับผู้เขียนคำอธิบายประกอบ (ในภาษาโปรตุเกส)
ข้อมูลการฝึกอบรมและการตรวจสอบความถูกต้องประกอบด้วย 6,500 และ 500 คู่ประโยคตามลำดับในภาษาโปรตุเกสแบบบราซิล โดยมีคำอธิบายประกอบเพื่อความเกี่ยวข้องและความคล้ายคลึงกันทางความหมาย ค่าความคล้ายคลึงทางความหมายมีตั้งแต่ 1 ถึง 5 และคลาสการลงรายละเอียดข้อความมีทั้งการลงรายละเอียดหรือไม่มีเลย ข้อมูลการทดสอบประกอบด้วยประมาณ 3,000 คู่ประโยคพร้อมคำอธิบายประกอบเดียวกัน ข้อมูลทั้งหมดได้รับการอธิบายประกอบด้วยตนเอง
การประเมิน
การประเมิน การประเมินการส่งไปยัง ASSIN 2 นั้นใช้เมตริกเดียวกันกับ ASSIN แรก โดยมี F1 ของความแม่นยำและการเรียกคืนเป็นเมตริกหลักสำหรับการสร้างรายละเอียดข้อความและความสัมพันธ์แบบเพียร์สันสำหรับความคล้ายคลึงทางความหมาย สคริปต์การประเมิน เหมือนกับในฉบับที่แล้ว
PS.: คำอธิบายดึงมาจาก โฮมเพจอย่างเป็นทางการ
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
รหัสแหล่งที่มา :
tfds.datasets.assin2.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
2.02 MiB
ขนาดชุดข้อมูล :
1.82 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,448 |
'train' | 6,500 |
'validation' | 500 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=string),
'id': int32,
'similarity': float32,
'text': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
สิ่งที่แนบมา | ป้ายกำกับคลาส | int64 | ||
สมมติฐาน | ข้อความ | สตริง | ||
รหัส | เทนเซอร์ | int32 | ||
ความคล้ายคลึงกัน | เทนเซอร์ | ลอย32 | ||
ข้อความ | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}