- คำอธิบาย :
TyDi QA เป็นชุดข้อมูลการตอบคำถามที่ครอบคลุม 11 ภาษาที่มีความหลากหลายทางการพิมพ์ พร้อมคำถาม-คำตอบ 204K คู่ ภาษาของ TyDi QA มีความหลากหลายในแง่ของการจำแนก - ชุดของลักษณะทางภาษาที่แต่ละภาษาแสดงออก - ซึ่งเราคาดหวังให้แบบจำลองทำงานได้ดีในชุดนี้จะสรุปเป็นภาษาต่าง ๆ จำนวนมากในโลก มันมีปรากฏการณ์ทางภาษาที่จะไม่พบในองค์กรภาษาอังกฤษเท่านั้น เพื่อให้งานค้นหาข้อมูลที่เป็นจริงและหลีกเลี่ยงผลกระทบเบื้องต้น คำถามจะถูกเขียนโดยผู้ที่ต้องการทราบคำตอบ แต่ยังไม่ทราบคำตอบ (ไม่เหมือนกับ SQuAD และผู้สืบทอด) และข้อมูลจะถูกรวบรวมโดยตรงในแต่ละภาษา โดยไม่ต้องใช้การแปล (ไม่เหมือน MLQA และ XQuAD)
แยกการฝึกอบรม:
'train': นี่คืองาน GoldP จากกระดาษ TyDi QA ต้นฉบับ [ https://arxiv.org/abs/2003.05002 ] ที่มีข้อมูลการฝึกอบรมที่ติดป้ายกำกับภาษาต้นฉบับ
'translate-train-*': การแยกเหล่านี้คือการแปลอัตโนมัติจากภาษาอังกฤษเป็นภาษาเป้าหมายแต่ละภาษาที่ใช้ในบรรทัดฐานของ translate-train ในกระดาษ XTREME [ https://arxiv.org/abs/2003.11080 ] สิ่งนี้จงใจละเว้นข้อมูลการฝึกอบรม TyDiQA-GoldP ที่ไม่ใช่ภาษาอังกฤษเพื่อจำลองสถานการณ์การเรียนรู้การถ่ายโอนซึ่งไม่มีข้อมูลภาษาต้นฉบับและผู้สร้างระบบต้องใช้ข้อมูลภาษาอังกฤษที่มีป้ายกำกับบวกกับระบบการแปลด้วยคอมพิวเตอร์ที่มีอยู่
โดยทั่วไป คุณควรใช้ทั้งรถไฟหรือรถไฟแปลแยก แต่ไม่ใช่ทั้งสองอย่าง
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
คำอธิบาย การกำหนดค่า: งาน Gold Passage (GoldP) ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline )
หน้าแรก : https://github.com/google-research-datasets/tydiqa
รหัสที่มา :
tfds.question_answering.TydiQA
รุ่น :
-
3.0.0
(ค่าเริ่มต้น): แก้ไขปัญหาเกี่ยวกับตัวอย่างจำนวนหนึ่งที่ช่วงคำตอบไม่ตรงแนวเนื่องจากการลบพื้นที่สีขาวตามบริบท การเปลี่ยนแปลงนี้ส่งผลกระทบประมาณ 25% ของตัวอย่างรถไฟและผู้พัฒนา
-
ขนาดการดาวน์โหลด :
121.30 MiB
ขนาดชุดข้อมูล :
98.35 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 49,881 |
'translate-train-ar' | 3,661 |
'translate-train-bn' | 3,585 |
'translate-train-fi' | 3,670 |
'translate-train-id' | 3,667 |
'translate-train-ko' | 3,607 |
'translate-train-ru' | 3,394 |
'translate-train-sw' | 3,622 |
'translate-train-te' | 3,658 |
'validation' | 5,077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
คำตอบ | ลำดับ | |||
คำตอบ/answer_start | เทนเซอร์ | int32 | ||
คำตอบ/ข้อความ | ข้อความ | สตริง | ||
บริบท | ข้อความ | สตริง | ||
รหัส | เทนเซอร์ | สตริง | ||
คำถาม | ข้อความ | สตริง | ||
ชื่อ | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}