- คำอธิบาย :
TriviaqQA เป็นชุดข้อมูลความเข้าใจในการอ่านที่ประกอบด้วยคำถาม-คำตอบ-หลักฐานมากกว่า 650,000 ข้อ TriviaqQA ประกอบด้วยคู่คำถาม-คำตอบ 95,000 คู่ที่เขียนขึ้นโดยผู้ที่ชื่นชอบเรื่องไม่สำคัญและเอกสารหลักฐานที่รวบรวมโดยอิสระ หกคู่ต่อคำถามโดยเฉลี่ย ซึ่งให้การกำกับดูแลระยะไกลคุณภาพสูงสำหรับการตอบคำถาม
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : http://nlp.cs.washington.edu/triviaqa/
ซอร์สโค้ด :
tfds.datasets.trivia_qa.Builder
รุ่น :
-
1.1.0
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
โครงสร้างคุณลักษณะ :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
คำตอบ | คุณสมบัติDict | |||
คำตอบ/นามแฝง | ลำดับ (ข้อความ) | (ไม่มี,) | สตริง | |
คำตอบ/matched_wiki_entity_name | ข้อความ | สตริง | ||
คำตอบ / normalized_aliases | ลำดับ (ข้อความ) | (ไม่มี,) | สตริง | |
คำตอบ/normalized_matched_wiki_entity_name | ข้อความ | สตริง | ||
คำตอบ/ค่าปกติ | ข้อความ | สตริง | ||
ตอบ/พิมพ์ | ข้อความ | สตริง | ||
คำตอบ/ค่า | ข้อความ | สตริง | ||
เอนทิตี_เพจ | ลำดับ | |||
entity_pages/doc_source | ข้อความ | สตริง | ||
entity_pages/ชื่อไฟล์ | ข้อความ | สตริง | ||
entity_pages/ชื่อเรื่อง | ข้อความ | สตริง | ||
entity_pages/wiki_context | ข้อความ | สตริง | ||
คำถาม | ข้อความ | สตริง | ||
คำถาม_id | ข้อความ | สตริง | ||
คำถาม_แหล่งที่มา | ข้อความ | สตริง | ||
ผลการค้นหา | ลำดับ | |||
search_results/description | ข้อความ | สตริง | ||
search_results/ชื่อไฟล์ | ข้อความ | สตริง | ||
search_results/อันดับ | เทนเซอร์ | int32 | ||
search_results/search_context | ข้อความ | สตริง | ||
search_results/title | ข้อความ | สตริง | ||
search_results/url | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (การกำหนดค่าเริ่มต้น)
คำอธิบายการกำหนดค่า : คู่คำถาม-คำตอบ โดยที่เอกสารทั้งหมดสำหรับคำถามที่กำหนดมีสตริงคำตอบ รวมบริบทจากวิกิพีเดียและผลการค้นหา
ขนาดการดาวน์โหลด :
2.48 GiB
ขนาดชุดข้อมูล :
14.99 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- ตัวอย่าง ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
คำอธิบายการกำหนดค่า : คู่คำถาม-คำตอบ โดยที่เอกสารทั้งหมดสำหรับคำถามที่กำหนดมีสตริงคำตอบ
ขนาดการดาวน์โหลด :
2.48 GiB
ขนาดชุดข้อมูล :
196.84 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- ตัวอย่าง ( tfds.as_dataframe ):
trivia_qa/ไม่กรอง
คำอธิบายการกำหนดค่า : คู่คำถามและคำตอบ 110k สำหรับ QA แบบโดเมนเปิด โดยที่เอกสารทั้งหมดสำหรับคำถามหนึ่งๆ ไม่ได้มีสตริงคำตอบ ทำให้ชุดข้อมูลที่ไม่มีการกรองเหมาะสมมากขึ้นสำหรับ QA แบบ IR รวมบริบทจากวิกิพีเดียและผลการค้นหา
ขนาดการดาวน์โหลด :
3.07 GiB
ขนาดชุดข้อมูล :
27.27 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- ตัวอย่าง ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
คำอธิบายการกำหนดค่า : คู่คำถามและคำตอบ 110k สำหรับ QA แบบโดเมนเปิด โดยที่เอกสารทั้งหมดสำหรับคำถามหนึ่งๆ ไม่ได้มีสตริงคำตอบ ทำให้ชุดข้อมูลที่ไม่มีการกรองเหมาะสมมากขึ้นสำหรับ QA แบบ IR
ขนาดการดาวน์โหลด :
603.25 MiB
ขนาดชุดข้อมูล :
119.78 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- ตัวอย่าง ( tfds.as_dataframe ):
- คำอธิบาย :
TriviaqQA เป็นชุดข้อมูลความเข้าใจในการอ่านที่ประกอบด้วยคำถาม-คำตอบ-หลักฐานมากกว่า 650,000 ข้อ TriviaqQA ประกอบด้วยคู่คำถาม-คำตอบ 95,000 คู่ที่เขียนขึ้นโดยผู้ที่ชื่นชอบเรื่องไม่สำคัญและเอกสารหลักฐานที่รวบรวมโดยอิสระ หกคู่ต่อคำถามโดยเฉลี่ย ซึ่งให้การกำกับดูแลระยะไกลคุณภาพสูงสำหรับการตอบคำถาม
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : http://nlp.cs.washington.edu/triviaqa/
ซอร์สโค้ด :
tfds.datasets.trivia_qa.Builder
รุ่น :
-
1.1.0
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
โครงสร้างคุณลักษณะ :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
คำตอบ | คุณสมบัติDict | |||
คำตอบ/นามแฝง | ลำดับ (ข้อความ) | (ไม่มี,) | สตริง | |
คำตอบ/matched_wiki_entity_name | ข้อความ | สตริง | ||
คำตอบ / normalized_aliases | ลำดับ (ข้อความ) | (ไม่มี,) | สตริง | |
คำตอบ/normalized_matched_wiki_entity_name | ข้อความ | สตริง | ||
คำตอบ/ค่าปกติ | ข้อความ | สตริง | ||
ตอบ/พิมพ์ | ข้อความ | สตริง | ||
คำตอบ/ค่า | ข้อความ | สตริง | ||
เอนทิตี_เพจ | ลำดับ | |||
entity_pages/doc_source | ข้อความ | สตริง | ||
entity_pages/ชื่อไฟล์ | ข้อความ | สตริง | ||
entity_pages/ชื่อเรื่อง | ข้อความ | สตริง | ||
entity_pages/wiki_context | ข้อความ | สตริง | ||
คำถาม | ข้อความ | สตริง | ||
คำถาม_id | ข้อความ | สตริง | ||
คำถาม_แหล่งที่มา | ข้อความ | สตริง | ||
ผลการค้นหา | ลำดับ | |||
search_results/description | ข้อความ | สตริง | ||
search_results/ชื่อไฟล์ | ข้อความ | สตริง | ||
search_results/อันดับ | เทนเซอร์ | int32 | ||
search_results/search_context | ข้อความ | สตริง | ||
search_results/title | ข้อความ | สตริง | ||
search_results/url | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (การกำหนดค่าเริ่มต้น)
คำอธิบายการกำหนดค่า : คู่คำถาม-คำตอบ โดยที่เอกสารทั้งหมดสำหรับคำถามที่กำหนดมีสตริงคำตอบ รวมบริบทจากวิกิพีเดียและผลการค้นหา
ขนาดการดาวน์โหลด :
2.48 GiB
ขนาดชุดข้อมูล :
14.99 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- ตัวอย่าง ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
คำอธิบายการกำหนดค่า : คู่คำถาม-คำตอบ โดยที่เอกสารทั้งหมดสำหรับคำถามที่กำหนดมีสตริงคำตอบ
ขนาดการดาวน์โหลด :
2.48 GiB
ขนาดชุดข้อมูล :
196.84 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 17,210 |
'train' | 138,384 |
'validation' | 18,669 |
- ตัวอย่าง ( tfds.as_dataframe ):
trivia_qa/ไม่กรอง
คำอธิบายการกำหนดค่า : คู่คำถามและคำตอบ 110k สำหรับ QA แบบโดเมนเปิด โดยที่เอกสารทั้งหมดสำหรับคำถามหนึ่งๆ ไม่ได้มีสตริงคำตอบ ทำให้ชุดข้อมูลที่ไม่มีการกรองเหมาะสมมากขึ้นสำหรับ QA แบบ IR รวมบริบทจากวิกิพีเดียและผลการค้นหา
ขนาดการดาวน์โหลด :
3.07 GiB
ขนาดชุดข้อมูล :
27.27 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- ตัวอย่าง ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
คำอธิบายการกำหนดค่า : คู่คำถามและคำตอบ 110k สำหรับ QA แบบโดเมนเปิด โดยที่เอกสารทั้งหมดสำหรับคำถามหนึ่งๆ ไม่ได้มีสตริงคำตอบ ทำให้ชุดข้อมูลที่ไม่มีการกรองเหมาะสมมากขึ้นสำหรับ QA แบบ IR
ขนาดการดาวน์โหลด :
603.25 MiB
ขนาดชุดข้อมูล :
119.78 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- ตัวอย่าง ( tfds.as_dataframe ):