xquad

  • คำอธิบาย :

XQuAD (ชุดข้อมูลการตอบคำถามข้ามภาษา) เป็นชุดข้อมูลมาตรฐานสำหรับการประเมินประสิทธิภาพการตอบคำถามข้ามภาษา ชุดข้อมูลประกอบด้วยชุดย่อย 240 ย่อหน้าและคู่คำถาม-คำตอบ 1,190 คู่จากชุดการพัฒนาของ SQuAD v1.1 (Rajpurkar et al., 2016) พร้อมกับการแปลอย่างมืออาชีพในสิบภาษา: สเปน เยอรมัน กรีก รัสเซีย และตุรกี , อาหรับ เวียดนาม ไทย จีน และฮินดี ดังนั้น ชุดข้อมูลจึงขนานกันใน 11 ภาษา หากต้องการเรียกใช้ XQuAD ในการตั้งค่าเริ่มต้นแบบ Zero-shot ให้ใช้ข้อมูลการฝึกอบรมและการตรวจสอบความถูกต้องของ SQuAD v1.1 ที่นี่: https://www.tensorflow.org/datasets/catalog/squad

เรายังรวม "translate-train", "translate-dev" และ "translate-test" สำหรับแต่ละภาษาที่ไม่ใช่ภาษาอังกฤษจาก XTREME (Hu et al., 2020) สิ่งเหล่านี้สามารถใช้เพื่อรัน XQuAD ในการตั้งค่า "translate-train" หรือ "translate-test"

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://github.com/deepmind/xquad

  • รหัสที่มา : tfds.question_answering.Xquad

  • รุ่น :

    • 3.0.0 (ค่าเริ่มต้น): แก้ไขปัญหาเกี่ยวกับตัวอย่างจำนวนหนึ่งที่ช่วงคำตอบไม่ตรงแนวเนื่องจากการลบพื้นที่สีขาวตามบริบท การเปลี่ยนแปลงนี้ส่งผลกระทบประมาณ 14% ของตัวอย่างการทดสอบ
  • โครงสร้างคุณลักษณะ :

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
คำตอบ ลำดับ
คำตอบ/answer_start เทนเซอร์ int32
คำตอบ/ข้อความ ข้อความ สตริง
บริบท ข้อความ สตริง
รหัส เทนเซอร์ สตริง
คำถาม ข้อความ สตริง
ชื่อ ข้อความ สตริง
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า: การแยกการทดสอบ XQuAD 'ar' พร้อมการแยกการแปลแบบฝึกแปลด้วยเครื่อง/แปล-dev/แปล-การทดสอบจาก XTREME (Hu et al., 2020)

  • ขนาดการดาวน์โหลด : 420.97 MiB

  • ขนาดชุดข้อมูล : 134.83 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 1,190
'translate-dev' 10,541
'translate-test' 1,151
'translate-train' 86,787

xquad/เด

  • คำอธิบาย การกำหนดค่า: การแยกการทดสอบ XQuAD 'de' พร้อมการแยกการแปลแบบฝึกแปลด้วยเครื่อง/แปล-dev/แปล-การทดสอบจาก XTREME (Hu et al., 2020)

  • ขนาดการดาวน์โหลด : 127.04 MiB

  • ขนาดชุดข้อมูล : 98.80 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 1,190
'translate-dev' 10,371
'translate-test' 1,168
'translate-train' 82,603

xquad/เอล

  • คำอธิบาย การกำหนดค่า: การแยกการทดสอบ XQuAD 'el' พร้อมการแยกการแปลแบบฝึกแปลด้วยเครื่อง/แปล-dev/แปล-ทดสอบจาก XTREME (Hu et al., 2020)

  • ขนาดการดาวน์โหลด : 499.40 MiB

  • ขนาดชุดข้อมูล : 157.90 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ, แปล-dev, แปล-ทดสอบ), เฉพาะเมื่อ shuffle_files=False (แปล-รถไฟ)

  • แยก :

แยก ตัวอย่าง
'test' 1,190
'translate-dev' 10,100
'translate-test' 1,182
'translate-train' 79,946

xquad/es

  • คำอธิบาย การกำหนดค่า: การแยกการทดสอบ XQuAD 'es' พร้อมการแยกการแปลแบบฝึกแปลด้วยเครื่อง/แปล-dev/แปล-การทดสอบจาก XTREME (Hu et al., 2020)

  • ขนาดการดาวน์โหลด : 138.41 MiB

  • ขนาดชุดข้อมูล : 104.96 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 1,190
'translate-dev' 10,566
'translate-test' 1,188
'translate-train' 87,488

xquad/สวัสดี

  • คำอธิบาย การกำหนดค่า: การแยกการทดสอบ XQuAD 'hi' พร้อมการแปลการแปลด้วยเครื่องแปล-ฝึก/แปล-dev/แปล-การทดสอบแยกจาก XTREME (Hu et al., 2020)

  • ขนาดการดาวน์โหลด : 472.23 MiB

  • ขนาดชุดข้อมูล : 207.85 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ, แปล-dev, แปล-ทดสอบ), เฉพาะเมื่อ shuffle_files=False (แปล-รถไฟ)

  • แยก :

แยก ตัวอย่าง
'test' 1,190
'translate-dev' 10,536
'translate-test' 1,184
'translate-train' 85,804

xquad/รู

  • คำอธิบาย การกำหนดค่า: การแยกการทดสอบ XQuAD 'ru' พร้อมการแยกการแปลแบบฝึกแปลด้วยเครื่อง/แปล-dev/แปล-การทดสอบจาก XTREME (Hu et al., 2020)

  • ขนาดการดาวน์โหลด : 513.80 MiB

  • ขนาดชุดข้อมูล : 159.38 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ, แปล-dev, แปล-ทดสอบ), เฉพาะเมื่อ shuffle_files=False (แปล-รถไฟ)

  • แยก :

แยก ตัวอย่าง
'test' 1,190
'translate-dev' 10,469
'translate-test' 1,190
'translate-train' 84,869

xquad/th

  • คำอธิบาย การกำหนดค่า: การแยกการทดสอบ XQuAD 'th' พร้อมการแยกการแปลแบบฝึกแปลด้วยเครื่อง/แปล-dev/แปล-การทดสอบจาก XTREME (Hu et al., 2020)

  • ขนาดการดาวน์โหลด : 461.54 MiB

  • ขนาดชุดข้อมูล : 199.57 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ, แปล-dev, แปล-ทดสอบ), เฉพาะเมื่อ shuffle_files=False (แปล-รถไฟ)

  • แยก :

แยก ตัวอย่าง
'test' 1,190
'translate-dev' 10,516
'translate-test' 1,157
'translate-train' 85,846

xquad/ตร

  • คำอธิบาย การกำหนดค่า: การแยกการทดสอบ XQuAD 'tr' พร้อมการแยกการแปลแบบฝึกแปลด้วยเครื่อง/แปล-dev/แปล-ทดสอบจาก XTREME (Hu et al., 2020)

  • ขนาดการดาวน์โหลด : 151.08 MiB

  • ขนาดชุดข้อมูล : 97.56 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 1,190
'translate-dev' 10,535
'translate-test' 1,112
'translate-train' 86,511

xquad/vi

  • คำอธิบาย การกำหนดค่า: การแยกการทดสอบ XQuAD 'vi' พร้อมการแยกการแปลการแปลด้วยเครื่อง

  • ขนาดการดาวน์โหลด : 218.09 MiB

  • ขนาดชุดข้อมูล : 120.03 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 1,190
'translate-dev' 10,555
'translate-test' 1,178
'translate-train' 87,187

xquad/zh

  • คำอธิบาย การกำหนดค่า: การแยกการทดสอบ XQuAD 'zh' พร้อมการแยกการแปลแบบฝึกแปลด้วยเครื่อง/แปล-dev/แปล-การทดสอบจาก XTREME (Hu et al., 2020)

  • ขนาดการดาวน์โหลด : 174.57 MiB

  • ขนาดชุดข้อมูล : 80.79 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 1,190
'translate-dev' 10,475
'translate-test' 1,186
'translate-train' 85,700

xquad/en

  • คำอธิบาย การกำหนดค่า : แยกการทดสอบ XQuAD 'en'

  • ขนาดการดาวน์โหลด : 595.10 KiB

  • ขนาดชุดข้อมูล : 1.19 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 1,190