ทีม

คำอธิบาย :

Stanford Question Answering Dataset (SQuAD) คือชุดข้อมูลความเข้าใจในการอ่าน ซึ่งประกอบด้วยคำถามที่กลุ่มผู้ทำงานในกลุ่มโพสต์ชุดบทความวิกิพีเดียตั้งขึ้น โดยที่คำตอบของทุกคำถามคือส่วนของข้อความหรือช่วงจากข้อความการอ่านที่เกี่ยวข้อง หรือคำถาม อาจจะตอบไม่ได้

เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://rajpurkar.github.io/SQuAD-explorer/
รหัสที่มา : tfds.datasets.squad.Builder
รุ่น :
- 3.0.0 (ค่าเริ่มต้น): แก้ไขปัญหาเกี่ยวกับตัวอย่างจำนวนน้อย (19) ซึ่งช่วงคำตอบไม่ตรงแนวเนื่องจากการลบพื้นที่สีขาวตามบริบท
คีย์ภายใต้การดูแล (ดู as_supervised doc ): None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :

@article{2016arXiv160605250R,
       author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 Konstantin and {Liang}, Percy},
        title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal = {arXiv e-prints},
         year = 2016,
          eid = {arXiv:1606.05250},
        pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
       eprint = {1606.05250},
}

หมู่/v1.1 (การกำหนดค่าเริ่มต้น)

คำอธิบายการกำหนดค่า : เวอร์ชัน 1.1.0 ของ SQUAD
ขนาดการดาวน์โหลด : 33.51 MiB
ขนาดชุดข้อมูล : 94.06 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'train'`	87,599
`'validation'`	10,570

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	Dประเภท
	คุณสมบัติDict
คำตอบ	ลำดับ
คำตอบ/answer_start	เทนเซอร์	int32
คำตอบ/ข้อความ	ข้อความ	สตริง
บริบท	ข้อความ	สตริง
รหัส	เทนเซอร์	สตริง
คำถาม	ข้อความ	สตริง
ชื่อ	ข้อความ	สตริง

ตัวอย่าง ( tfds.as_dataframe ):

หมู่/v2.0

คำอธิบายการกำหนดค่า : เวอร์ชัน 2.0.0 ของ SQUAD
ขนาดการดาวน์โหลด : 44.34 MiB
ขนาดชุดข้อมูล : 148.54 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ใช่ (การตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)
แยก :

แยก	ตัวอย่าง
`'train'`	130,319
`'validation'`	11,873

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'is_impossible': bool,
    'plausible_answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	Dประเภท
	คุณสมบัติDict
คำตอบ	ลำดับ
คำตอบ/answer_start	เทนเซอร์	int32
คำตอบ/ข้อความ	ข้อความ	สตริง
บริบท	ข้อความ	สตริง
รหัส	เทนเซอร์	สตริง
is_impossible	เทนเซอร์	บูล
lausible_answers	ลำดับ
plausible_answers/answer_start	เทนเซอร์	int32
plausible_answers/ข้อความ	ข้อความ	สตริง
คำถาม	ข้อความ	สตริง
ชื่อ	ข้อความ	สตริง

ตัวอย่าง ( tfds.as_dataframe ):

ทีม จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

หมู่/v1.1 (การกำหนดค่าเริ่มต้น)

หมู่/v2.0

ทีม