- คำอธิบาย :
เกณฑ์มาตรฐาน UnifiedQA ประกอบด้วยชุดข้อมูลการตอบคำถามหลัก (QA) 20 ชุด (แต่ละชุดอาจมีหลายเวอร์ชัน) ที่กำหนดเป้าหมายรูปแบบต่างๆ รวมถึงปรากฏการณ์ทางภาษาศาสตร์ที่ซับซ้อนต่างๆ ชุดข้อมูลเหล่านี้จัดกลุ่มเป็นหลายรูปแบบ/หมวดหมู่ ได้แก่ QA แบบแยกส่วน QA แบบนามธรรม QA แบบปรนัย และใช่/ไม่ใช่ QA นอกจากนี้ ชุดความคมชัดยังใช้สำหรับชุดข้อมูลหลายชุด (แสดงด้วย " ชุด ความคมชัด") ชุดการประเมินเหล่านี้เป็นการก่อกวนโดยผู้เชี่ยวชาญซึ่งเบี่ยงเบนไปจากรูปแบบที่พบได้ทั่วไปในชุดข้อมูลดั้งเดิม สำหรับชุดข้อมูลหลายชุดที่ไม่ได้มาพร้อมกับย่อหน้าหลักฐาน จะมีสองรูปแบบที่รวมไว้: ชุดหนึ่งซึ่งใช้ชุดข้อมูลตามที่เป็นอยู่ และอีกชุดหนึ่งที่ใช้ย่อหน้าที่เรียกผ่านระบบดึงข้อมูลเพื่อเป็นหลักฐานเพิ่มเติม โดยระบุด้วยแท็ก "_ir"
ดูข้อมูลเพิ่มเติมได้ที่: https://github.com/allenai/unifiedqa
หน้าแรก : https://github.com/allenai/unifiedqa
รหัสที่มา :
tfds.text.unifiedqa.UnifiedQA
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
โครงสร้างคุณลักษณะ :
FeaturesDict({
'input': string,
'output': string,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ป้อนข้อมูล | เทนเซอร์ | สตริง | ||
เอาต์พุต | เทนเซอร์ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
unified_qa/ai2_science_elementary (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า : ชุดข้อมูล AI2 Science Questions ประกอบด้วยคำถามที่ใช้ในการประเมินนักเรียนในสหรัฐอเมริกาในระดับประถมศึกษาและมัธยมต้น คำถามแต่ละข้อเป็นแบบปรนัย 4 ทาง และอาจมีหรือไม่มีองค์ประกอบไดอะแกรมก็ได้ ชุดนี้ประกอบด้วยคำถามที่ใช้สำหรับระดับชั้นประถมศึกษาปีที่
ขนาดการดาวน์โหลด :
345.59 KiB
ขนาดชุดข้อมูล :
390.02 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 542 |
'train' | 623 |
'validation' | 123 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
http://data.allenai.org/ai2-science-questions
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/ai2_science_middle
คำอธิบาย การกำหนดค่า : ชุดข้อมูล AI2 Science Questions ประกอบด้วยคำถามที่ใช้ในการประเมินนักเรียนในสหรัฐอเมริกาในระดับประถมศึกษาและมัธยมต้น คำถามแต่ละข้อเป็นแบบปรนัย 4 ทาง และอาจมีหรือไม่มีองค์ประกอบไดอะแกรมก็ได้ ชุดนี้ประกอบด้วยคำถามที่ใช้สำหรับระดับชั้นมัธยมต้น
ขนาดการดาวน์โหลด :
428.41 KiB
ขนาดชุดข้อมูล :
477.40 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 679 |
'train' | 605 |
'validation' | 125 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
http://data.allenai.org/ai2-science-questions
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/ambigqa
คำอธิบาย การกำหนดค่า : AmbigQA เป็นงานตอบคำถามโดเมนแบบเปิดซึ่งเกี่ยวข้องกับการค้นหาทุกคำตอบที่น่าเชื่อถือ จากนั้นจึงเขียนคำถามใหม่สำหรับแต่ละข้อเพื่อแก้ไขความกำกวม
ขนาดการดาวน์โหลด :
2.27 MiB
ขนาดชุดข้อมูล :
3.04 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 19,806 |
'validation' | 5,674 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{min-etal-2020-ambigqa,
title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
author = "Min, Sewon and
Michael, Julian and
Hajishirzi, Hannaneh and
Zettlemoyer, Luke",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.emnlp-main.466",
doi = "10.18653/v1/2020.emnlp-main.466",
pages = "5783--5797",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_easy
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ประกอบด้วยระดับชั้นประถมศึกษาของแท้ คำถามวิทยาศาสตร์แบบปรนัย ซึ่งประกอบขึ้นเพื่อสนับสนุนการวิจัยในการตอบคำถามขั้นสูง ชุดข้อมูลถูกแบ่งออกเป็น Challenge Set และ Easy Set โดยที่ชุดแรกมีเพียงคำถามที่ตอบผิดโดยทั้งอัลกอริทึมที่ใช้การดึงข้อมูลและอัลกอริธึมการเกิดร่วมกันของคำ ชุดนี้ประกอบด้วยคำถามที่ "ง่าย"
ขนาดการดาวน์โหลด :
1.24 MiB
ขนาดชุดข้อมูล :
1.42 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,376 |
'train' | 2,251 |
'validation' | 570 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_easy_dev
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ประกอบด้วยระดับชั้นประถมศึกษาของแท้ คำถามวิทยาศาสตร์แบบปรนัย ซึ่งประกอบขึ้นเพื่อสนับสนุนการวิจัยในการตอบคำถามขั้นสูง ชุดข้อมูลถูกแบ่งออกเป็น Challenge Set และ Easy Set โดยที่ชุดแรกมีเพียงคำถามที่ตอบผิดโดยทั้งอัลกอริทึมที่ใช้การดึงข้อมูลและอัลกอริธึมการเกิดร่วมกันของคำ ชุดนี้ประกอบด้วยคำถามที่ "ง่าย"
ขนาดการดาวน์โหลด :
1.24 MiB
ขนาดชุดข้อมูล :
1.42 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,376 |
'train' | 2,251 |
'validation' | 570 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_easy_with_ir
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ประกอบด้วยระดับชั้นประถมศึกษาของแท้ คำถามวิทยาศาสตร์แบบปรนัย ซึ่งประกอบขึ้นเพื่อสนับสนุนการวิจัยในการตอบคำถามขั้นสูง ชุดข้อมูลถูกแบ่งออกเป็น Challenge Set และ Easy Set โดยที่ชุดแรกมีเพียงคำถามที่ตอบผิดโดยทั้งอัลกอริทึมที่ใช้การดึงข้อมูลและอัลกอริธึมการเกิดร่วมกันของคำ ชุดนี้ประกอบด้วยคำถามที่ "ง่าย" เวอร์ชันนี้มีย่อหน้าที่เรียกผ่านระบบการสืบค้นข้อมูลเพื่อเป็นหลักฐานเพิ่มเติม
ขนาดการดาวน์โหลด :
7.00 MiB
ขนาดชุดข้อมูล :
7.17 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,376 |
'train' | 2,251 |
'validation' | 570 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_easy_with_ir_dev
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ประกอบด้วยระดับชั้นประถมศึกษาของแท้ คำถามวิทยาศาสตร์แบบปรนัย ซึ่งประกอบขึ้นเพื่อสนับสนุนการวิจัยในการตอบคำถามขั้นสูง ชุดข้อมูลถูกแบ่งออกเป็น Challenge Set และ Easy Set โดยที่ชุดแรกมีเพียงคำถามที่ตอบผิดโดยทั้งอัลกอริทึมที่ใช้การดึงข้อมูลและอัลกอริธึมการเกิดร่วมกันของคำ ชุดนี้ประกอบด้วยคำถามที่ "ง่าย" เวอร์ชันนี้มีย่อหน้าที่เรียกผ่านระบบการสืบค้นข้อมูลเพื่อเป็นหลักฐานเพิ่มเติม
ขนาดการดาวน์โหลด :
7.00 MiB
ขนาดชุดข้อมูล :
7.17 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,376 |
'train' | 2,251 |
'validation' | 570 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_hard
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ประกอบด้วยระดับชั้นประถมศึกษาของแท้ คำถามวิทยาศาสตร์แบบปรนัย ซึ่งประกอบขึ้นเพื่อสนับสนุนการวิจัยในการตอบคำถามขั้นสูง ชุดข้อมูลถูกแบ่งออกเป็น Challenge Set และ Easy Set โดยที่ชุดแรกมีเพียงคำถามที่ตอบผิดโดยทั้งอัลกอริทึมที่ใช้การดึงข้อมูลและอัลกอริธึมการเกิดร่วมกันของคำ ชุดนี้ประกอบด้วยคำถามที่ "ยาก"
ขนาดการดาวน์โหลด :
758.03 KiB
ขนาดชุดข้อมูล :
848.28 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,172 |
'train' | 1,119 |
'validation' | 299 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_hard_dev
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ประกอบด้วยระดับชั้นประถมศึกษาของแท้ คำถามวิทยาศาสตร์แบบปรนัย ซึ่งประกอบขึ้นเพื่อสนับสนุนการวิจัยในการตอบคำถามขั้นสูง ชุดข้อมูลถูกแบ่งออกเป็น Challenge Set และ Easy Set โดยที่ชุดแรกมีเพียงคำถามที่ตอบผิดโดยทั้งอัลกอริทึมที่ใช้การดึงข้อมูลและอัลกอริธึมการเกิดร่วมกันของคำ ชุดนี้ประกอบด้วยคำถามที่ "ยาก"
ขนาดการดาวน์โหลด :
758.03 KiB
ขนาดชุดข้อมูล :
848.28 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,172 |
'train' | 1,119 |
'validation' | 299 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_hard_with_ir
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ประกอบด้วยระดับชั้นประถมศึกษาของแท้ คำถามวิทยาศาสตร์แบบปรนัย ซึ่งประกอบขึ้นเพื่อสนับสนุนการวิจัยในการตอบคำถามขั้นสูง ชุดข้อมูลถูกแบ่งออกเป็น Challenge Set และ Easy Set โดยที่ชุดแรกมีเพียงคำถามที่ตอบผิดโดยทั้งอัลกอริทึมที่ใช้การดึงข้อมูลและอัลกอริธึมการเกิดร่วมกันของคำ ชุดนี้ประกอบด้วยคำถามที่ "ยาก" เวอร์ชันนี้มีย่อหน้าที่เรียกผ่านระบบการสืบค้นข้อมูลเพื่อเป็นหลักฐานเพิ่มเติม
ขนาดการดาวน์โหลด :
3.53 MiB
ขนาดชุดข้อมูล :
3.62 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,172 |
'train' | 1,119 |
'validation' | 299 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/arc_hard_with_ir_dev
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ประกอบด้วยระดับชั้นประถมศึกษาของแท้ คำถามวิทยาศาสตร์แบบปรนัย ซึ่งประกอบขึ้นเพื่อสนับสนุนการวิจัยในการตอบคำถามขั้นสูง ชุดข้อมูลถูกแบ่งออกเป็น Challenge Set และ Easy Set โดยที่ชุดแรกมีเพียงคำถามที่ตอบผิดโดยทั้งอัลกอริทึมที่ใช้การดึงข้อมูลและอัลกอริธึมการเกิดร่วมกันของคำ ชุดนี้ประกอบด้วยคำถามที่ "ยาก" เวอร์ชันนี้มีย่อหน้าที่เรียกผ่านระบบการสืบค้นข้อมูลเพื่อเป็นหลักฐานเพิ่มเติม
ขนาดการดาวน์โหลด :
3.53 MiB
ขนาดชุดข้อมูล :
3.62 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,172 |
'train' | 1,119 |
'validation' | 299 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{clark2018think,
title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
journal={arXiv preprint arXiv:1803.05457},
year={2018}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/บูลคิว
คำอธิบาย การกำหนดค่า : BoolQ เป็นชุดข้อมูลตอบคำถามสำหรับคำถามใช่/ไม่ใช่ คำถามเหล่านี้เกิดขึ้นตามธรรมชาติ --- คำถามเหล่านี้สร้างขึ้นในการตั้งค่าที่ไม่ได้รับการแจ้งเตือนและไม่มีข้อจำกัด แต่ละตัวอย่างเป็นสามส่วนของ (คำถาม ข้อความ คำตอบ) โดยมีชื่อเรื่องของหน้าเป็นบริบทเพิ่มเติมหรือไม่ก็ได้ การตั้งค่าการจัดประเภทคู่ข้อความคล้ายกับงานการอนุมานภาษาธรรมชาติที่มีอยู่
ขนาดการดาวน์โหลด :
7.77 MiB
ขนาดชุดข้อมูล :
8.20 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 9,427 |
'validation' | 3,270 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{clark-etal-2019-boolq,
title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
author = "Clark, Christopher and
Lee, Kenton and
Chang, Ming-Wei and
Kwiatkowski, Tom and
Collins, Michael and
Toutanova, Kristina",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1300",
doi = "10.18653/v1/N19-1300",
pages = "2924--2936",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/boolq_np
คำอธิบาย การกำหนดค่า : BoolQ เป็นชุดข้อมูลตอบคำถามสำหรับคำถามใช่/ไม่ใช่ คำถามเหล่านี้เกิดขึ้นตามธรรมชาติ --- คำถามเหล่านี้สร้างขึ้นในการตั้งค่าที่ไม่ได้รับการแจ้งเตือนและไม่มีข้อจำกัด แต่ละตัวอย่างเป็นสามส่วนของ (คำถาม ข้อความ คำตอบ) โดยมีชื่อเรื่องของหน้าเป็นบริบทเพิ่มเติมหรือไม่ก็ได้ การตั้งค่าการจัดประเภทคู่ข้อความคล้ายกับงานการอนุมานภาษาธรรมชาติที่มีอยู่ เวอร์ชันนี้เพิ่มการก่อกวนตามธรรมชาติให้กับเวอร์ชันดั้งเดิม
ขนาดการดาวน์โหลด :
10.80 MiB
ขนาดชุดข้อมูล :
11.40 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 9,727 |
'validation' | 7,596 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{khashabi-etal-2020-bang,
title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
author = "Khashabi, Daniel and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.emnlp-main.12",
doi = "10.18653/v1/2020.emnlp-main.12",
pages = "163--170",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/commonsenseqa
คำอธิบาย การกำหนดค่า: CommonsenseQA เป็นชุดข้อมูลการตอบคำถามแบบปรนัยชุดใหม่ที่ต้องใช้ความรู้ด้านสามัญสำนึกประเภทต่างๆ เพื่อทำนายคำตอบที่ถูกต้อง ประกอบด้วยคำถามที่มีคำตอบที่ถูกต้องหนึ่งข้อและคำตอบที่ทำให้ไขว้เขวสี่ข้อ
ขนาดการดาวน์โหลด :
1.79 MiB
ขนาดชุดข้อมูล :
2.19 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,140 |
'train' | 9,741 |
'validation' | 1,221 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{talmor-etal-2019-commonsenseqa,
title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
author = "Talmor, Alon and
Herzig, Jonathan and
Lourie, Nicholas and
Berant, Jonathan",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1421",
doi = "10.18653/v1/N19-1421",
pages = "4149--4158",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/commonsenseqa_test
คำอธิบาย การกำหนดค่า: CommonsenseQA เป็นชุดข้อมูลการตอบคำถามแบบปรนัยชุดใหม่ที่ต้องใช้ความรู้ด้านสามัญสำนึกประเภทต่างๆ เพื่อทำนายคำตอบที่ถูกต้อง ประกอบด้วยคำถามที่มีคำตอบที่ถูกต้องหนึ่งข้อและคำตอบที่ทำให้ไขว้เขวสี่ข้อ
ขนาดการดาวน์โหลด :
1.79 MiB
ขนาดชุดข้อมูล :
2.19 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,140 |
'train' | 9,741 |
'validation' | 1,221 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{talmor-etal-2019-commonsenseqa,
title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
author = "Talmor, Alon and
Herzig, Jonathan and
Lourie, Nicholas and
Berant, Jonathan",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1421",
doi = "10.18653/v1/N19-1421",
pages = "4149--4158",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/contrast_sets_boolq
คำอธิบาย การกำหนดค่า : BoolQ เป็นชุดข้อมูลตอบคำถามสำหรับคำถามใช่/ไม่ใช่ คำถามเหล่านี้เกิดขึ้นตามธรรมชาติ --- คำถามเหล่านี้สร้างขึ้นในการตั้งค่าที่ไม่ได้รับการแจ้งเตือนและไม่มีข้อจำกัด แต่ละตัวอย่างเป็นสามส่วนของ (คำถาม ข้อความ คำตอบ) โดยมีชื่อเรื่องของหน้าเป็นบริบทเพิ่มเติมหรือไม่ก็ได้ การตั้งค่าการจัดประเภทคู่ข้อความคล้ายกับงานการอนุมานภาษาธรรมชาติที่มีอยู่ เวอร์ชันนี้ใช้ชุดคอนทราสต์ ชุดการประเมินเหล่านี้เป็นการก่อกวนโดยผู้เชี่ยวชาญซึ่งเบี่ยงเบนไปจากรูปแบบที่พบได้ทั่วไปในชุดข้อมูลดั้งเดิม
ขนาดการดาวน์โหลด :
438.51 KiB
ขนาดชุดข้อมูล :
462.35 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 340 |
'validation' | 340 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{clark-etal-2019-boolq,
title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
author = "Clark, Christopher and
Lee, Kenton and
Chang, Ming-Wei and
Kwiatkowski, Tom and
Collins, Michael and
Toutanova, Kristina",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1300",
doi = "10.18653/v1/N19-1300",
pages = "2924--2936",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/contrast_sets_drop
คำอธิบาย การกำหนดค่า : DROP คือเกณฑ์มาตรฐาน QA ที่สร้างจากฝูงชนซึ่งสร้างโดยฝ่ายตรงข้าม ซึ่งระบบต้องแก้ไขการอ้างอิงในคำถาม อาจเป็นตำแหน่งอินพุตหลายตำแหน่ง และดำเนินการแยกจากกัน (เช่น การบวก การนับ หรือการเรียงลำดับ) การดำเนินการเหล่านี้ต้องการความเข้าใจเนื้อหาของย่อหน้าที่ครอบคลุมมากกว่าสิ่งที่จำเป็นสำหรับชุดข้อมูลก่อนหน้า เวอร์ชันนี้ใช้ชุดคอนทราสต์ ชุดการประเมินเหล่านี้เป็นการก่อกวนโดยผู้เชี่ยวชาญซึ่งเบี่ยงเบนไปจากรูปแบบที่พบได้ทั่วไปในชุดข้อมูลดั้งเดิม
ขนาดการดาวน์โหลด :
2.20 MiB
ขนาดชุดข้อมูล :
2.26 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 947 |
'validation' | 947 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{dua-etal-2019-drop,
title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
author = "Dua, Dheeru and
Wang, Yizhong and
Dasigi, Pradeep and
Stanovsky, Gabriel and
Singh, Sameer and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1246",
doi = "10.18653/v1/N19-1246",
pages = "2368--2378",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/contrast_sets_quoref
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ทดสอบความสามารถในการให้เหตุผลแบบแกนกลางของระบบการอ่านเพื่อความเข้าใจ ในเกณฑ์มาตรฐานการเลือกช่วงซึ่งมีคำถามเหนือย่อหน้าจากวิกิพีเดีย ระบบต้องแก้ไขฮาร์ดคอร์ก่อนที่จะเลือกช่วงที่เหมาะสมในย่อหน้าเพื่อตอบคำถาม เวอร์ชันนี้ใช้ชุดคอนทราสต์ ชุดการประเมินเหล่านี้เป็นการก่อกวนโดยผู้เชี่ยวชาญซึ่งเบี่ยงเบนไปจากรูปแบบที่พบได้ทั่วไปในชุดข้อมูลดั้งเดิม
ขนาดการดาวน์โหลด :
2.60 MiB
ขนาดชุดข้อมูล :
2.65 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 700 |
'validation' | 700 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{dasigi-etal-2019-quoref,
title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
author = "Dasigi, Pradeep and
Liu, Nelson F. and
Marasovi{'c}, Ana and
Smith, Noah A. and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1606",
doi = "10.18653/v1/D19-1606",
pages = "5925--5932",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/contrast_sets_ropes
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ทดสอบความสามารถของระบบในการนำความรู้จากข้อความไปใช้ในสถานการณ์ใหม่ ระบบนำเสนอข้อความพื้นหลังที่ประกอบด้วยความสัมพันธ์เชิงสาเหตุหรือเชิงคุณภาพ (เช่น "แมลงผสมเกสรสัตว์เพิ่มประสิทธิภาพการปฏิสนธิในดอกไม้") สถานการณ์ใหม่ที่ใช้พื้นหลังนี้ และคำถามที่ต้องใช้เหตุผลเกี่ยวกับผลกระทบของความสัมพันธ์ใน ข้อความพื้นหลังในบริบทของสถานการณ์ เวอร์ชันนี้ใช้ชุดคอนทราสต์ ชุดการประเมินเหล่านี้เป็นการก่อกวนโดยผู้เชี่ยวชาญซึ่งเบี่ยงเบนไปจากรูปแบบที่พบได้ทั่วไปในชุดข้อมูลดั้งเดิม
ขนาดการดาวน์โหลด :
1.97 MiB
ขนาดชุดข้อมูล :
2.04 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 974 |
'validation' | 974 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{lin-etal-2019-reasoning,
title = "Reasoning Over Paragraph Effects in Situations",
author = "Lin, Kevin and
Tafjord, Oyvind and
Clark, Peter and
Gardner, Matt",
booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-5808",
doi = "10.18653/v1/D19-5808",
pages = "58--62",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/drop
คำอธิบาย การกำหนดค่า : DROP คือเกณฑ์มาตรฐาน QA ที่สร้างจากฝูงชนซึ่งสร้างโดยฝ่ายตรงข้าม ซึ่งระบบต้องแก้ไขการอ้างอิงในคำถาม อาจเป็นตำแหน่งอินพุตหลายตำแหน่ง และดำเนินการแยกจากกัน (เช่น การบวก การนับ หรือการเรียงลำดับ) การดำเนินการเหล่านี้ต้องการความเข้าใจเนื้อหาของย่อหน้าที่ครอบคลุมมากกว่าสิ่งที่จำเป็นสำหรับชุดข้อมูลก่อนหน้า
ขนาดการดาวน์โหลด :
105.18 MiB
ขนาดชุดข้อมูล :
108.16 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 77,399 |
'validation' | 9,536 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{dua-etal-2019-drop,
title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
author = "Dua, Dheeru and
Wang, Yizhong and
Dasigi, Pradeep and
Stanovsky, Gabriel and
Singh, Sameer and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
month = jun,
year = "2019",
address = "Minneapolis, Minnesota",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N19-1246",
doi = "10.18653/v1/N19-1246",
pages = "2368--2378",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/mctest
คำอธิบาย การกำหนดค่า: MCTest ต้องการให้เครื่องตอบคำถามเพื่อความเข้าใจในการอ่านแบบปรนัยเกี่ยวกับเรื่องราวสมมุติ โดยจัดการกับเป้าหมายระดับสูงของความเข้าใจของเครื่องโดเมนแบบเปิดโดยตรง ความเข้าใจในการอ่านสามารถทดสอบความสามารถขั้นสูง เช่น การให้เหตุผลเชิงสาเหตุและการเข้าใจโลก แต่การเป็นแบบปรนัยยังคงให้ตัวชี้วัดที่ชัดเจน โดยทั่วไปแล้วคำตอบสามารถพบได้ในเนื้อเรื่องเท่านั้น เรื่องราวและคำถามต่างๆ ยังจำกัดไว้เฉพาะเรื่องที่เด็กเล็กๆ จะเข้าใจ ซึ่งเป็นการลดความรู้ทางโลกที่จำเป็นสำหรับงานนี้
ขนาดการดาวน์โหลด :
2.14 MiB
ขนาดชุดข้อมูล :
2.20 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1,480 |
'validation' | 320 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{richardson-etal-2013-mctest,
title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
author = "Richardson, Matthew and
Burges, Christopher J.C. and
Renshaw, Erin",
booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
month = oct,
year = "2013",
address = "Seattle, Washington, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D13-1020",
pages = "193--203",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/mctest_corrected_the_separator
คำอธิบาย การกำหนดค่า: MCTest ต้องการให้เครื่องตอบคำถามเพื่อความเข้าใจในการอ่านแบบปรนัยเกี่ยวกับเรื่องราวสมมุติ โดยจัดการกับเป้าหมายระดับสูงของความเข้าใจของเครื่องโดเมนแบบเปิดโดยตรง ความเข้าใจในการอ่านสามารถทดสอบความสามารถขั้นสูง เช่น การให้เหตุผลเชิงสาเหตุและการเข้าใจโลก แต่การเป็นแบบปรนัยยังคงให้ตัวชี้วัดที่ชัดเจน โดยทั่วไปแล้วคำตอบสามารถพบได้ในเนื้อเรื่องเท่านั้น เรื่องราวและคำถามต่างๆ ยังจำกัดไว้เฉพาะเรื่องที่เด็กเล็กๆ จะเข้าใจ ซึ่งเป็นการลดความรู้ทางโลกที่จำเป็นสำหรับงานนี้
ขนาดการดาวน์โหลด :
2.15 MiB
ขนาดชุดข้อมูล :
2.21 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 1,480 |
'validation' | 320 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{richardson-etal-2013-mctest,
title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
author = "Richardson, Matthew and
Burges, Christopher J.C. and
Renshaw, Erin",
booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
month = oct,
year = "2013",
address = "Seattle, Washington, USA",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D13-1020",
pages = "193--203",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/multirc
คำอธิบาย การกำหนดค่า: MultiRC เป็นความท้าทายในการอ่านเพื่อความเข้าใจ ซึ่งคำถามสามารถตอบได้โดยการคำนึงถึงข้อมูลจากหลายประโยคเท่านั้น คำถามและคำตอบสำหรับความท้าทายนี้ได้รับการร้องขอและยืนยันผ่านการทดสอบการจัดหาฝูงชน 4 ขั้นตอน ชุดข้อมูลประกอบด้วยคำถามสำหรับย่อหน้าใน 7 โดเมนที่แตกต่างกัน (วิทยาศาสตร์ระดับประถมศึกษา ข่าว คู่มือการเดินทาง เรื่องแต่ง ฯลฯ) ซึ่งนำความหลากหลายทางภาษามาสู่ข้อความและคำถาม
ขนาดการดาวน์โหลด :
897.09 KiB
ขนาดชุดข้อมูล :
918.42 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 312 |
'validation' | 312 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{khashabi-etal-2018-looking,
title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
author = "Khashabi, Daniel and
Chaturvedi, Snigdha and
Roth, Michael and
Upadhyay, Shyam and
Roth, Dan",
booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
month = jun,
year = "2018",
address = "New Orleans, Louisiana",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/N18-1023",
doi = "10.18653/v1/N18-1023",
pages = "252--262",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/บรรยายqa
คำอธิบาย การกำหนดค่า: NarrativeQA เป็นชุดข้อมูลภาษาอังกฤษของเรื่องราวและคำถามที่สอดคล้องกัน ซึ่งออกแบบมาเพื่อทดสอบความเข้าใจในการอ่าน โดยเฉพาะในเอกสารขนาดยาว
ขนาดการดาวน์โหลด :
308.28 MiB
ขนาดชุดข้อมูล :
311.22 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 21,114 |
'train' | 65,494 |
'validation' | 6,922 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{kocisky-etal-2018-narrativeqa,
title = "The {N}arrative{QA} Reading Comprehension Challenge",
author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} } and
Schwarz, Jonathan and
Blunsom, Phil and
Dyer, Chris and
Hermann, Karl Moritz and
Melis, G{'a}bor and
Grefenstette, Edward",
journal = "Transactions of the Association for Computational Linguistics",
volume = "6",
year = "2018",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q18-1023",
doi = "10.1162/tacl_a_00023",
pages = "317--328",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/narrativeqa_dev
คำอธิบาย การกำหนดค่า: NarrativeQA เป็นชุดข้อมูลภาษาอังกฤษของเรื่องราวและคำถามที่สอดคล้องกัน ซึ่งออกแบบมาเพื่อทดสอบความเข้าใจในการอ่าน โดยเฉพาะในเอกสารขนาดยาว
ขนาดการดาวน์โหลด :
308.28 MiB
ขนาดชุดข้อมูล :
311.22 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 21,114 |
'train' | 65,494 |
'validation' | 6,922 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{kocisky-etal-2018-narrativeqa,
title = "The {N}arrative{QA} Reading Comprehension Challenge",
author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} } and
Schwarz, Jonathan and
Blunsom, Phil and
Dyer, Chris and
Hermann, Karl Moritz and
Melis, G{'a}bor and
Grefenstette, Edward",
journal = "Transactions of the Association for Computational Linguistics",
volume = "6",
year = "2018",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q18-1023",
doi = "10.1162/tacl_a_00023",
pages = "317--328",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/natural_questions
คำอธิบาย การกำหนดค่า : คลังข้อมูล NQ มีคำถามจากผู้ใช้จริง และจำเป็นต้องมีระบบ QA เพื่ออ่านและทำความเข้าใจบทความ Wikipedia ทั้งหมดที่อาจมีหรือไม่มีคำตอบสำหรับคำถาม การรวมคำถามของผู้ใช้จริงและข้อกำหนดที่โซลูชันควรอ่านทั้งหน้าเพื่อหาคำตอบ ทำให้ NQ เป็นงานที่สมจริงและท้าทายมากกว่าชุดข้อมูล QA ก่อนหน้านี้
ขนาดการดาวน์โหลด :
6.95 MiB
ขนาดชุดข้อมูล :
9.88 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 96,075 |
'validation' | 2,295 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/natural_questions_direct_ans
คำอธิบาย การกำหนดค่า : คลังข้อมูล NQ มีคำถามจากผู้ใช้จริง และจำเป็นต้องมีระบบ QA เพื่ออ่านและทำความเข้าใจบทความ Wikipedia ทั้งหมดที่อาจมีหรือไม่มีคำตอบสำหรับคำถาม การรวมคำถามของผู้ใช้จริงและข้อกำหนดที่โซลูชันควรอ่านทั้งหน้าเพื่อหาคำตอบ ทำให้ NQ เป็นงานที่สมจริงและท้าทายมากกว่าชุดข้อมูล QA ก่อนหน้านี้ เวอร์ชันนี้ประกอบด้วยคำถามคำตอบโดยตรง
ขนาดการดาวน์โหลด :
6.82 MiB
ขนาดชุดข้อมูล :
10.19 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 6,468 |
'train' | 96,676 |
'validation' | 10,693 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/natural_questions_direct_ans_test
คำอธิบาย การกำหนดค่า : คลังข้อมูล NQ มีคำถามจากผู้ใช้จริง และจำเป็นต้องมีระบบ QA เพื่ออ่านและทำความเข้าใจบทความ Wikipedia ทั้งหมดที่อาจมีหรือไม่มีคำตอบสำหรับคำถาม การรวมคำถามของผู้ใช้จริงและข้อกำหนดที่โซลูชันควรอ่านทั้งหน้าเพื่อหาคำตอบ ทำให้ NQ เป็นงานที่สมจริงและท้าทายมากกว่าชุดข้อมูล QA ก่อนหน้านี้ เวอร์ชันนี้ประกอบด้วยคำถามคำตอบโดยตรง
ขนาดการดาวน์โหลด :
6.82 MiB
ขนาดชุดข้อมูล :
10.19 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 6,468 |
'train' | 96,676 |
'validation' | 10,693 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/natural_questions_with_dpr_para
คำอธิบาย การกำหนดค่า : คลังข้อมูล NQ มีคำถามจากผู้ใช้จริง และจำเป็นต้องมีระบบ QA เพื่ออ่านและทำความเข้าใจบทความ Wikipedia ทั้งหมดที่อาจมีหรือไม่มีคำตอบสำหรับคำถาม การรวมคำถามของผู้ใช้จริงและข้อกำหนดที่โซลูชันควรอ่านทั้งหน้าเพื่อหาคำตอบ ทำให้ NQ เป็นงานที่สมจริงและท้าทายมากกว่าชุดข้อมูล QA ก่อนหน้านี้ รุ่นนี้มีย่อหน้าเพิ่มเติม (ได้รับโดยใช้กลไกการดึงข้อมูล DPR) เพื่อเพิ่มพูนคำถามแต่ละข้อ
ขนาดการดาวน์โหลด :
319.22 MiB
ขนาดชุดข้อมูล :
322.91 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 96,676 |
'validation' | 10,693 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/natural_questions_with_dpr_para_test
คำอธิบาย การกำหนดค่า : คลังข้อมูล NQ มีคำถามจากผู้ใช้จริง และจำเป็นต้องมีระบบ QA เพื่ออ่านและทำความเข้าใจบทความ Wikipedia ทั้งหมดที่อาจมีหรือไม่มีคำตอบสำหรับคำถาม การรวมคำถามของผู้ใช้จริงและข้อกำหนดที่โซลูชันควรอ่านทั้งหน้าเพื่อหาคำตอบ ทำให้ NQ เป็นงานที่สมจริงและท้าทายมากกว่าชุดข้อมูล QA ก่อนหน้านี้ รุ่นนี้มีย่อหน้าเพิ่มเติม (ได้รับโดยใช้กลไกการดึงข้อมูล DPR) เพื่อเพิ่มพูนคำถามแต่ละข้อ
ขนาดการดาวน์โหลด :
306.94 MiB
ขนาดชุดข้อมูล :
310.48 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 6,468 |
'train' | 96,676 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{kwiatkowski-etal-2019-natural,
title = "Natural Questions: A Benchmark for Question Answering Research",
author = "Kwiatkowski, Tom and
Palomaki, Jennimaria and
Redfield, Olivia and
Collins, Michael and
Parikh, Ankur and
Alberti, Chris and
Epstein, Danielle and
Polosukhin, Illia and
Devlin, Jacob and
Lee, Kenton and
Toutanova, Kristina and
Jones, Llion and
Kelcey, Matthew and
Chang, Ming-Wei and
Dai, Andrew M. and
Uszkoreit, Jakob and
Le, Quoc and
Petrov, Slav",
journal = "Transactions of the Association for Computational Linguistics",
volume = "7",
year = "2019",
address = "Cambridge, MA",
publisher = "MIT Press",
url = "https://aclanthology.org/Q19-1026",
doi = "10.1162/tacl_a_00276",
pages = "452--466",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/newsqa
คำอธิบาย การกำหนดค่า: NewsQA เป็นชุดข้อมูลความเข้าใจในเครื่องที่ท้าทายของคู่คำถาม-คำตอบที่มนุษย์สร้างขึ้น ฝูงชนจัดหาคำถามและคำตอบตามชุดบทความข่าวจาก CNN โดยคำตอบประกอบด้วยช่วงข้อความจากบทความที่เกี่ยวข้อง
ขนาดการดาวน์โหลด :
283.33 MiB
ขนาดชุดข้อมูล :
285.94 MiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 75,882 |
'validation' | 4,309 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{trischler-etal-2017-newsqa,
title = "{N}ews{QA}: A Machine Comprehension Dataset",
author = "Trischler, Adam and
Wang, Tong and
Yuan, Xingdi and
Harris, Justin and
Sordoni, Alessandro and
Bachman, Philip and
Suleman, Kaheer",
booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
month = aug,
year = "2017",
address = "Vancouver, Canada",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/W17-2623",
doi = "10.18653/v1/W17-2623",
pages = "191--200",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/openbookqa
คำอธิบาย Config : OpenBookQA มีเป้าหมายเพื่อส่งเสริมการวิจัยในการตอบคำถามขั้นสูง สำรวจความเข้าใจที่ลึกซึ้งยิ่งขึ้นของทั้งหัวข้อ (ด้วยข้อเท็จจริงที่เด่นชัดซึ่งสรุปเป็นหนังสือแบบเปิด ซึ่งมาพร้อมกับชุดข้อมูลด้วย) และภาษาที่แสดง โดยเฉพาะอย่างยิ่ง ประกอบด้วยคำถามที่ต้องใช้เหตุผลหลายขั้นตอน การใช้ความรู้ทั่วไปและสามัญสำนึกเพิ่มเติม และความเข้าใจในข้อความที่หลากหลาย OpenBookQA เป็นชุดข้อมูลการตอบคำถามประเภทใหม่ที่จำลองแบบมาจากข้อสอบแบบเปิดหนังสือเพื่อประเมินความเข้าใจของมนุษย์ในเรื่องใดเรื่องหนึ่ง
ขนาดการดาวน์โหลด :
942.34 KiB
ขนาดชุดข้อมูล :
1.11 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 500 |
'train' | 4,957 |
'validation' | 500 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/openbookqa_dev
คำอธิบาย Config : OpenBookQA มีเป้าหมายเพื่อส่งเสริมการวิจัยในการตอบคำถามขั้นสูง สำรวจความเข้าใจที่ลึกซึ้งยิ่งขึ้นของทั้งหัวข้อ (ด้วยข้อเท็จจริงที่เด่นชัดซึ่งสรุปเป็นหนังสือแบบเปิด ซึ่งมาพร้อมกับชุดข้อมูลด้วย) และภาษาที่แสดง โดยเฉพาะอย่างยิ่ง ประกอบด้วยคำถามที่ต้องใช้เหตุผลหลายขั้นตอน การใช้ความรู้ทั่วไปและสามัญสำนึกเพิ่มเติม และความเข้าใจในข้อความที่หลากหลาย OpenBookQA เป็นชุดข้อมูลการตอบคำถามประเภทใหม่ที่จำลองแบบมาจากข้อสอบแบบเปิดหนังสือเพื่อประเมินความเข้าใจของมนุษย์ในเรื่องใดเรื่องหนึ่ง
ขนาดการดาวน์โหลด :
942.34 KiB
ขนาดชุดข้อมูล :
1.11 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 500 |
'train' | 4,957 |
'validation' | 500 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/openbookqa_with_ir
คำอธิบาย Config : OpenBookQA มีเป้าหมายเพื่อส่งเสริมการวิจัยในการตอบคำถามขั้นสูง สำรวจความเข้าใจที่ลึกซึ้งยิ่งขึ้นของทั้งหัวข้อ (ด้วยข้อเท็จจริงที่เด่นชัดซึ่งสรุปเป็นหนังสือแบบเปิด ซึ่งมาพร้อมกับชุดข้อมูลด้วย) และภาษาที่แสดง โดยเฉพาะอย่างยิ่ง ประกอบด้วยคำถามที่ต้องใช้เหตุผลหลายขั้นตอน การใช้ความรู้ทั่วไปและสามัญสำนึกเพิ่มเติม และความเข้าใจในข้อความที่หลากหลาย OpenBookQA เป็นชุดข้อมูลการตอบคำถามประเภทใหม่ที่จำลองแบบมาจากข้อสอบแบบเปิดหนังสือเพื่อประเมินความเข้าใจของมนุษย์ในเรื่องใดเรื่องหนึ่ง เวอร์ชันนี้มีย่อหน้าที่เรียกผ่านระบบการสืบค้นข้อมูลเพื่อเป็นหลักฐานเพิ่มเติม
ขนาดการดาวน์โหลด :
6.08 MiB
ขนาดชุดข้อมูล :
6.28 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 500 |
'train' | 4,957 |
'validation' | 500 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/openbookqa_with_ir_dev
คำอธิบาย Config : OpenBookQA มีเป้าหมายเพื่อส่งเสริมการวิจัยในการตอบคำถามขั้นสูง สำรวจความเข้าใจที่ลึกซึ้งยิ่งขึ้นของทั้งหัวข้อ (ด้วยข้อเท็จจริงที่เด่นชัดซึ่งสรุปเป็นหนังสือแบบเปิด ซึ่งมาพร้อมกับชุดข้อมูลด้วย) และภาษาที่แสดง โดยเฉพาะอย่างยิ่ง ประกอบด้วยคำถามที่ต้องใช้เหตุผลหลายขั้นตอน การใช้ความรู้ทั่วไปและสามัญสำนึกเพิ่มเติม และความเข้าใจในข้อความที่หลากหลาย OpenBookQA เป็นชุดข้อมูลการตอบคำถามประเภทใหม่ที่จำลองแบบมาจากข้อสอบแบบเปิดหนังสือเพื่อประเมินความเข้าใจของมนุษย์ในเรื่องใดเรื่องหนึ่ง เวอร์ชันนี้มีย่อหน้าที่เรียกผ่านระบบการสืบค้นข้อมูลเพื่อเป็นหลักฐานเพิ่มเติม
ขนาดการดาวน์โหลด :
6.08 MiB
ขนาดชุดข้อมูล :
6.28 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 500 |
'train' | 4,957 |
'validation' | 500 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{mihaylov-etal-2018-suit,
title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
author = "Mihaylov, Todor and
Clark, Peter and
Khot, Tushar and
Sabharwal, Ashish",
booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
month = oct # "-" # nov,
year = "2018",
address = "Brussels, Belgium",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D18-1260",
doi = "10.18653/v1/D18-1260",
pages = "2381--2391",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/กายภาพ_iqa
คำอธิบาย การกำหนดค่า : นี่คือชุดข้อมูลสำหรับการเปรียบเทียบความก้าวหน้าในการทำความเข้าใจสามัญสำนึกทางกายภาพ ภารกิจพื้นฐานคือการตอบคำถามแบบปรนัย: ให้คำถาม q และคำตอบที่เป็นไปได้สองข้อ s1, s2, แบบจำลองหรือมนุษย์ต้องเลือกวิธีแก้ปัญหาที่เหมาะสมที่สุด ซึ่งหนึ่งในนั้นถูกต้อง ชุดข้อมูลมุ่งเน้นไปที่สถานการณ์ในชีวิตประจำวันโดยให้ความสำคัญกับโซลูชันที่ผิดปกติ ชุดข้อมูลได้รับแรงบันดาลใจจาก instructables.com ซึ่งให้คำแนะนำแก่ผู้ใช้เกี่ยวกับวิธีสร้าง ประดิษฐ์ อบ หรือจัดการวัตถุโดยใช้วัสดุในชีวิตประจำวัน ผู้ทำคำอธิบายประกอบจะถูกขอให้จัดเตรียมการรบกวนทางความหมายหรือแนวทางอื่นซึ่งมีความคล้ายคลึงกันทางวากยสัมพันธ์และเชิงหัวข้อ เพื่อให้แน่ใจว่ามีการกำหนดเป้าหมายความรู้ทางกายภาพ ชุดข้อมูลได้รับการทำความสะอาดเพิ่มเติมจากสิ่งประดิษฐ์พื้นฐานโดยใช้อัลกอริทึม AFLite
ขนาดการดาวน์โหลด :
6.01 MiB
ขนาดชุดข้อมูล :
6.59 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 16,113 |
'validation' | 1,838 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{bisk2020piqa,
title={Piqa: Reasoning about physical commonsense in natural language},
author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={7432--7439},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/qasc
คำอธิบาย การกำหนดค่า : QASC เป็นชุดข้อมูลการตอบคำถามโดยเน้นที่องค์ประกอบประโยค ประกอบด้วยคำถามแบบปรนัย 8 ข้อเกี่ยวกับวิทยาศาสตร์ระดับประถมศึกษา และมาพร้อมกับคลังข้อมูล 17 ล้านประโยค
ขนาดการดาวน์โหลด :
1.75 MiB
ขนาดชุดข้อมูล :
2.09 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 920 |
'train' | 8,134 |
'validation' | 926 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/qasc_test
คำอธิบาย การกำหนดค่า : QASC เป็นชุดข้อมูลการตอบคำถามโดยเน้นที่องค์ประกอบประโยค ประกอบด้วยคำถามแบบปรนัย 8 ข้อเกี่ยวกับวิทยาศาสตร์ระดับประถมศึกษา และมาพร้อมกับคลังข้อมูล 17 ล้านประโยค
ขนาดการดาวน์โหลด :
1.75 MiB
ขนาดชุดข้อมูล :
2.09 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 920 |
'train' | 8,134 |
'validation' | 926 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/qasc_with_ir
คำอธิบาย การกำหนดค่า : QASC เป็นชุดข้อมูลการตอบคำถามโดยเน้นที่องค์ประกอบประโยค ประกอบด้วยคำถามแบบปรนัย 8 ข้อเกี่ยวกับวิทยาศาสตร์ระดับประถมศึกษา และมาพร้อมกับคลังข้อมูล 17 ล้านประโยค เวอร์ชันนี้มีย่อหน้าที่เรียกผ่านระบบการสืบค้นข้อมูลเพื่อเป็นหลักฐานเพิ่มเติม
ขนาดการดาวน์โหลด :
16.95 MiB
ขนาดชุดข้อมูล :
17.30 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 920 |
'train' | 8,134 |
'validation' | 926 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/qasc_with_ir_test
คำอธิบาย การกำหนดค่า : QASC เป็นชุดข้อมูลการตอบคำถามโดยเน้นที่องค์ประกอบประโยค ประกอบด้วยคำถามแบบปรนัย 8 ข้อเกี่ยวกับวิทยาศาสตร์ระดับประถมศึกษา และมาพร้อมกับคลังข้อมูล 17 ล้านประโยค เวอร์ชันนี้มีย่อหน้าที่เรียกผ่านระบบการสืบค้นข้อมูลเพื่อเป็นหลักฐานเพิ่มเติม
ขนาดการดาวน์โหลด :
16.95 MiB
ขนาดชุดข้อมูล :
17.30 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 920 |
'train' | 8,134 |
'validation' | 926 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{khot2020qasc,
title={Qasc: A dataset for question answering via sentence composition},
author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8082--8090},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/quoref
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ทดสอบความสามารถในการให้เหตุผลแบบแกนกลางของระบบการอ่านเพื่อความเข้าใจ ในเกณฑ์มาตรฐานการเลือกช่วงซึ่งมีคำถามเหนือย่อหน้าจากวิกิพีเดีย ระบบต้องแก้ไขฮาร์ดคอร์ก่อนที่จะเลือกช่วงที่เหมาะสมในย่อหน้าเพื่อตอบคำถาม
ขนาดการดาวน์โหลด :
51.43 MiB
ขนาดชุดข้อมูล :
52.29 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 22,265 |
'validation' | 2,768 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{dasigi-etal-2019-quoref,
title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
author = "Dasigi, Pradeep and
Liu, Nelson F. and
Marasovi{'c}, Ana and
Smith, Noah A. and
Gardner, Matt",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1606",
doi = "10.18653/v1/D19-1606",
pages = "5925--5932",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/race_string
คำอธิบาย การกำหนดค่า : Race เป็นชุดข้อมูลความเข้าใจในการอ่านขนาดใหญ่ ชุดข้อมูลนี้รวบรวมจากข้อสอบภาษาอังกฤษในประเทศจีน ซึ่งออกแบบมาสำหรับนักเรียนมัธยมต้นและมัธยมปลาย ชุดข้อมูลสามารถใช้เป็นชุดการฝึกอบรมและการทดสอบสำหรับความเข้าใจในเครื่อง
ขนาดการดาวน์โหลด :
167.97 MiB
ขนาดชุดข้อมูล :
171.23 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 4,934 |
'train' | 87,863 |
'validation' | 4,887 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{lai-etal-2017-race,
title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
author = "Lai, Guokun and
Xie, Qizhe and
Liu, Hanxiao and
Yang, Yiming and
Hovy, Eduard",
booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
month = sep,
year = "2017",
address = "Copenhagen, Denmark",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D17-1082",
doi = "10.18653/v1/D17-1082",
pages = "785--794",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/race_string_dev
คำอธิบาย การกำหนดค่า : Race เป็นชุดข้อมูลความเข้าใจในการอ่านขนาดใหญ่ ชุดข้อมูลนี้รวบรวมจากข้อสอบภาษาอังกฤษในประเทศจีน ซึ่งออกแบบมาสำหรับนักเรียนมัธยมต้นและมัธยมปลาย ชุดข้อมูลสามารถใช้เป็นชุดการฝึกอบรมและการทดสอบสำหรับความเข้าใจในเครื่อง
ขนาดการดาวน์โหลด :
167.97 MiB
ขนาดชุดข้อมูล :
171.23 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 4,934 |
'train' | 87,863 |
'validation' | 4,887 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{lai-etal-2017-race,
title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
author = "Lai, Guokun and
Xie, Qizhe and
Liu, Hanxiao and
Yang, Yiming and
Hovy, Eduard",
booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
month = sep,
year = "2017",
address = "Copenhagen, Denmark",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D17-1082",
doi = "10.18653/v1/D17-1082",
pages = "785--794",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/เชือก
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ทดสอบความสามารถของระบบในการนำความรู้จากข้อความไปใช้ในสถานการณ์ใหม่ ระบบนำเสนอข้อความพื้นหลังที่ประกอบด้วยความสัมพันธ์เชิงสาเหตุหรือเชิงคุณภาพ (เช่น "แมลงผสมเกสรสัตว์เพิ่มประสิทธิภาพการปฏิสนธิในดอกไม้") สถานการณ์ใหม่ที่ใช้พื้นหลังนี้ และคำถามที่ต้องใช้เหตุผลเกี่ยวกับผลกระทบของความสัมพันธ์ใน ข้อความพื้นหลังในบริบทของสถานการณ์
ขนาดการดาวน์โหลด :
12.91 MiB
ขนาดชุดข้อมูล :
13.35 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 10,924 |
'validation' | 1,688 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{lin-etal-2019-reasoning,
title = "Reasoning Over Paragraph Effects in Situations",
author = "Lin, Kevin and
Tafjord, Oyvind and
Clark, Peter and
Gardner, Matt",
booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-5808",
doi = "10.18653/v1/D19-5808",
pages = "58--62",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/social_iqa
คำอธิบาย การกำหนดค่า : นี่คือเกณฑ์มาตรฐานขนาดใหญ่สำหรับการให้เหตุผลตามสามัญสำนึกเกี่ยวกับสถานการณ์ทางสังคม Social IQa ประกอบด้วยคำถามแบบปรนัยเพื่อสำรวจความฉลาดทางอารมณ์และสังคมในสถานการณ์ต่างๆ ในชีวิตประจำวัน รวบรวมคำถามสามัญสำนึกพร้อมกับคำตอบที่ถูกต้องและไม่ถูกต้องเกี่ยวกับการโต้ตอบทางสังคม โดยใช้กรอบการทำงานใหม่ที่ลดการสร้างโวหารในคำตอบที่ไม่ถูกต้องโดยขอให้พนักงานให้คำตอบที่ถูกต้องสำหรับคำถามอื่นแต่เกี่ยวข้องกัน
ขนาดการดาวน์โหลด :
7.08 MiB
ขนาดชุดข้อมูล :
8.22 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 33,410 |
'validation' | 1,954 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{sap-etal-2019-social,
title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
author = "Sap, Maarten and
Rashkin, Hannah and
Chen, Derek and
Le Bras, Ronan and
Choi, Yejin",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D19-1454",
doi = "10.18653/v1/D19-1454",
pages = "4463--4473",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/squad1_1
คำอธิบาย การกำหนดค่า : นี่คือชุดข้อมูลความเข้าใจในการอ่านที่ประกอบด้วยคำถามที่กลุ่มผู้จัดทำบทความวิกิพีเดียตั้งขึ้น โดยคำตอบสำหรับคำถามแต่ละข้อคือส่วนของข้อความจากข้อความการอ่านที่เกี่ยวข้อง
ขนาดการดาวน์โหลด :
80.62 MiB
ขนาดชุดข้อมูล :
83.99 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 87,514 |
'validation' | 10,570 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{rajpurkar-etal-2016-squad,
title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
author = "Rajpurkar, Pranav and
Zhang, Jian and
Lopyrev, Konstantin and
Liang, Percy",
booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2016",
address = "Austin, Texas",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/D16-1264",
doi = "10.18653/v1/D16-1264",
pages = "2383--2392",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/squad2
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้รวมชุดข้อมูล Stanford Question Answering Dataset (SQuAD) ดั้งเดิมกับคำถามที่ตอบไม่ได้ซึ่งเขียนขึ้นโดยกลุ่มผู้ทำงานเป็นกลุ่มเพื่อให้ดูคล้ายกับคำถามที่ตอบไม่ได้
ขนาดการดาวน์โหลด :
116.56 MiB
ขนาดชุดข้อมูล :
121.43 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 130,149 |
'validation' | 11,873 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{rajpurkar-etal-2018-know,
title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
author = "Rajpurkar, Pranav and
Jia, Robin and
Liang, Percy",
booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
month = jul,
year = "2018",
address = "Melbourne, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/P18-2124",
doi = "10.18653/v1/P18-2124",
pages = "784--789",
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/winogrande_l
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ได้รับแรงบันดาลใจจากการออกแบบ Winograd Schema Challenge ดั้งเดิม แต่ได้รับการปรับปรุงเพื่อปรับปรุงทั้งขนาดและความแข็งของชุดข้อมูล ขั้นตอนสำคัญของการสร้างชุดข้อมูลประกอบด้วย (1) ขั้นตอนการจัดหาฝูงชนที่ออกแบบอย่างระมัดระวัง ตามด้วย (2) การลดอคติอย่างเป็นระบบโดยใช้อัลกอริทึม AfLite แบบใหม่ที่สรุปความสัมพันธ์ของคำที่ตรวจจับโดยมนุษย์ไปสู่การเชื่อมโยงการฝังที่ตรวจพบด้วยเครื่อง มีชุดฝึกอบรมที่มีขนาดแตกต่างกัน ชุดนี้ตรงกับไซส์
l
ขนาดการดาวน์โหลด :
1.49 MiB
ขนาดชุดข้อมูล :
1.83 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 10,234 |
'validation' | 1,267 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/winogrande_m
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ได้รับแรงบันดาลใจจากการออกแบบ Winograd Schema Challenge ดั้งเดิม แต่ได้รับการปรับปรุงเพื่อปรับปรุงทั้งขนาดและความแข็งของชุดข้อมูล ขั้นตอนสำคัญของการสร้างชุดข้อมูลประกอบด้วย (1) ขั้นตอนการจัดหาฝูงชนที่ออกแบบอย่างระมัดระวัง ตามด้วย (2) การลดอคติอย่างเป็นระบบโดยใช้อัลกอริทึม AfLite แบบใหม่ที่สรุปความสัมพันธ์ของคำที่ตรวจจับโดยมนุษย์ไปสู่การเชื่อมโยงการฝังที่ตรวจพบด้วยเครื่อง มีชุดฝึกอบรมที่มีขนาดแตกต่างกัน ชุดนี้ตรงกับไซส์
m
ขนาดการดาวน์โหลด :
507.46 KiB
ขนาดชุดข้อมูล :
623.15 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 2,558 |
'validation' | 1,267 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."
unified_qa/winogrande_s
คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ได้รับแรงบันดาลใจจากการออกแบบ Winograd Schema Challenge ดั้งเดิม แต่ได้รับการปรับปรุงเพื่อปรับปรุงทั้งขนาดและความแข็งของชุดข้อมูล ขั้นตอนสำคัญของการสร้างชุดข้อมูลประกอบด้วย (1) ขั้นตอนการจัดหาฝูงชนที่ออกแบบอย่างระมัดระวัง ตามด้วย (2) การลดอคติอย่างเป็นระบบโดยใช้อัลกอริทึม AfLite แบบใหม่ที่สรุปความสัมพันธ์ของคำที่ตรวจจับโดยมนุษย์ไปสู่การเชื่อมโยงการฝังที่ตรวจพบด้วยเครื่อง มีชุดฝึกอบรมที่มีขนาดแตกต่างกัน ชุดนี้สอดคล้องกับขนาด
s
ขนาดการดาวน์โหลด :
479.24 KiB
ขนาดชุดข้อมูล :
590.47 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,767 |
'train' | 640 |
'validation' | 1,267 |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{sakaguchi2020winogrande,
title={Winogrande: An adversarial winograd schema challenge at scale},
author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={34},
number={05},
pages={8732--8740},
year={2020}
}
@inproceedings{khashabi-etal-2020-unifiedqa,
title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
author = "Khashabi, Daniel and
Min, Sewon and
Khot, Tushar and
Sabharwal, Ashish and
Tafjord, Oyvind and
Clark, Peter and
Hajishirzi, Hannaneh",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.findings-emnlp.171",
doi = "10.18653/v1/2020.findings-emnlp.171",
pages = "1896--1907",
}
Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."