tydi_qa

  • คำอธิบาย :

TyDi QA เป็นชุดข้อมูลการตอบคำถามที่ครอบคลุม 11 ภาษาที่มีความหลากหลายทางการพิมพ์ พร้อมคำถาม-คำตอบ 204K คู่ ภาษาของ TyDi QA มีความหลากหลายในแง่ของการจำแนก - ชุดของลักษณะทางภาษาที่แต่ละภาษาแสดงออก - ซึ่งเราคาดหวังให้แบบจำลองทำงานได้ดีในชุดนี้จะสรุปเป็นภาษาต่าง ๆ จำนวนมากในโลก มันมีปรากฏการณ์ทางภาษาที่จะไม่พบในองค์กรภาษาอังกฤษเท่านั้น เพื่อให้งานค้นหาข้อมูลที่เป็นจริงและหลีกเลี่ยงผลกระทบเบื้องต้น คำถามจะถูกเขียนโดยผู้ที่ต้องการทราบคำตอบ แต่ยังไม่ทราบคำตอบ (ไม่เหมือนกับ SQuAD และผู้สืบทอด) และข้อมูลจะถูกรวบรวมโดยตรงในแต่ละภาษา โดยไม่ต้องใช้การแปล (ไม่เหมือน MLQA และ XQuAD)

แยกการฝึกอบรม:

'train': นี่คืองาน GoldP จากกระดาษ TyDi QA ต้นฉบับ [ https://arxiv.org/abs/2003.05002 ] ที่มีข้อมูลการฝึกอบรมที่ติดป้ายกำกับภาษาต้นฉบับ

'translate-train-*': การแยกเหล่านี้คือการแปลอัตโนมัติจากภาษาอังกฤษเป็นภาษาเป้าหมายแต่ละภาษาที่ใช้ในบรรทัดฐานของ translate-train ในกระดาษ XTREME [ https://arxiv.org/abs/2003.11080 ] สิ่งนี้จงใจละเว้นข้อมูลการฝึกอบรม TyDiQA-GoldP ที่ไม่ใช่ภาษาอังกฤษเพื่อจำลองสถานการณ์การเรียนรู้การถ่ายโอนซึ่งไม่มีข้อมูลภาษาต้นฉบับและผู้สร้างระบบต้องใช้ข้อมูลภาษาอังกฤษที่มีป้ายกำกับบวกกับระบบการแปลด้วยคอมพิวเตอร์ที่มีอยู่

โดยทั่วไป คุณควรใช้ทั้งรถไฟหรือรถไฟแปลแยก แต่ไม่ใช่ทั้งสองอย่าง

แยก ตัวอย่าง
'train' 49,881
'translate-train-ar' 3,661
'translate-train-bn' 3,585
'translate-train-fi' 3,670
'translate-train-id' 3,667
'translate-train-ko' 3,607
'translate-train-ru' 3,394
'translate-train-sw' 3,622
'translate-train-te' 3,658
'validation' 5,077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
คำตอบ ลำดับ
คำตอบ/answer_start เทนเซอร์ int32
คำตอบ/ข้อความ ข้อความ สตริง
บริบท ข้อความ สตริง
รหัส เทนเซอร์ สตริง
คำถาม ข้อความ สตริง
ชื่อ ข้อความ สตริง
  • การอ้างอิง :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (การกำหนดค่าเริ่มต้น)