- คำอธิบาย :
SuperGLUE ( https://super.gluebenchmark.com/ ) เป็นการวัดประสิทธิภาพแบบใหม่ที่มีสไตล์หลังจาก GLUE โดยมีชุดใหม่ของงานทำความเข้าใจภาษาที่ยากขึ้น ทรัพยากรที่ได้รับการปรับปรุง และลีดเดอร์บอร์ดสาธารณะใหม่
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
รหัสที่มา :
tfds.text.SuperGlue
รุ่น :
-
1.0.2
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
super_glue/boolq (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า : BoolQ (Boolean Questions, Clark et al., 2019a) เป็นงาน QA ที่แต่ละตัวอย่างประกอบด้วยข้อความสั้นๆ และคำถามใช่/ไม่ใช่เกี่ยวกับข้อความ คำถามมีให้โดยไม่ระบุชื่อและไม่ได้ร้องขอโดยผู้ใช้เครื่องมือค้นหาของ Google และหลังจากนั้นจับคู่กับย่อหน้าจากบทความ Wikipedia ที่มีคำตอบ เราประเมินด้วยความแม่นยำ
หน้าแรก : https://github.com/google-research-datasets/boolean-questions
ขนาดการดาวน์โหลด :
3.93 MiB
ขนาดชุดข้อมูล :
10.75 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 3,245 |
'train' | 9,427 |
'validation' | 3,270 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'passage': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
idx | เทนเซอร์ | int32 | ||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
ทางเดิน | ข้อความ | สตริง | ||
คำถาม | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{clark2019boolq,
title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
booktitle={NAACL},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/cb
คำอธิบาย การกำหนดค่า: CommitmentBank (De Marneffe et al., 2019) คือคลังข้อความสั้นๆ ที่อย่างน้อยหนึ่งประโยคมีอนุประโยคฝังอยู่ แต่ละอนุประโยคที่ฝังไว้เหล่านี้มีคำอธิบายประกอบในระดับที่เราคาดหวังว่าบุคคลที่เขียนข้อความนั้นยึดมั่นในความจริงของอนุประโยคนั้น งานที่เกิดขึ้นถูกจัดกรอบเป็นข้อความสามชั้นในตัวอย่างที่ดึงมาจาก Wall Street Journal นวนิยายจาก British National Corpus และ Switchboard แต่ละตัวอย่างประกอบด้วยสมมติฐานที่มีอนุประโยคที่ฝังอยู่ และสมมติฐานที่สอดคล้องกันคือการดึงอนุประโยคนั้นออกมา เราใช้ชุดย่อยของข้อมูลที่มีข้อตกลงระหว่างผู้ทำหมายเหตุประกอบที่สูงกว่า 0.85 ข้อมูลไม่สมดุล (ตัวอย่างที่ค่อนข้างเป็นกลางน้อยกว่า) ดังนั้นเราจึงประเมินโดยใช้ความแม่นยำและ F1 โดยที่สำหรับ F1 หลายคลาส เราจะคำนวณค่าเฉลี่ยแบบไม่ถ่วงน้ำหนักของ F1 ต่อคลาส
หน้าแรก : https://github.com/mcdm/CommitmentBank
ขนาดการดาวน์โหลด :
73.71 KiB
ขนาดชุดข้อมูล :
229.28 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 250 |
'train' | 250 |
'validation' | 56 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'premise': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
สมมติฐาน | ข้อความ | สตริง | ||
idx | เทนเซอร์ | int32 | ||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
หลักฐาน | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{de marneff_simons_tonhauser_2019,
title={The CommitmentBank: Investigating projection in naturally occurring discourse},
journal={proceedings of Sinn und Bedeutung 23},
author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/copa
คำอธิบาย การกำหนดค่า: ชุดข้อมูล The Choice Of Plausible Alternatives (COPA, Roemmele et al., 2011) เป็นงานการให้เหตุผลเชิงสาเหตุซึ่งระบบจะได้รับประโยคสมมติฐานและทางเลือกที่เป็นไปได้สองทาง ระบบจะต้องเลือกทางเลือกที่มีความสัมพันธ์เชิงเหตุและผลที่เป็นไปได้มากกว่ากับสมมติฐาน วิธีการที่ใช้ในการสร้างทางเลือกทำให้มั่นใจได้ว่างานนั้นต้องใช้เหตุผลเชิงสาเหตุในการแก้ปัญหา ตัวอย่างจัดการกับสาเหตุที่เป็นไปได้ทางเลือกหรือผลกระทบที่เป็นไปได้ทางเลือกของประโยคหลักฐาน พร้อมด้วยคำถามง่ายๆ ที่ทำให้ไม่กำกวมระหว่างสองประเภทอินสแตนซ์สำหรับโมเดล ตัวอย่างทั้งหมดจัดทำขึ้นด้วยมือและเน้นหัวข้อจากบล็อกออนไลน์และสารานุกรมเกี่ยวกับการถ่ายภาพ เราประเมินโดยใช้ความแม่นยำตามคำแนะนำของผู้เขียน
ขนาดการดาวน์โหลด :
42.96 KiB
ขนาดชุดข้อมูล :
196.00 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 500 |
'train' | 400 |
'validation' | 100 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'choice1': Text(shape=(), dtype=string),
'choice2': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
ทางเลือก1 | ข้อความ | สตริง | ||
ทางเลือก2 | ข้อความ | สตริง | ||
idx | เทนเซอร์ | int32 | ||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
หลักฐาน | ข้อความ | สตริง | ||
คำถาม | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{roemmele2011choice,
title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
booktitle={2011 AAAI Spring Symposium Series},
year={2011}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/multirc
คำอธิบาย การกำหนดค่า : ชุดข้อมูลความเข้าใจในการอ่านหลายประโยค (MultiRC, Khashabi et al., 2018) เป็นงานตอบคำถามจริง/เท็จ แต่ละตัวอย่างประกอบด้วยย่อหน้าบริบท คำถามเกี่ยวกับย่อหน้านั้น และรายการคำตอบที่เป็นไปได้สำหรับคำถามนั้นซึ่งต้องระบุว่าเป็นจริงหรือเท็จ คำถาม-คำตอบ (QA) เป็นปัญหายอดนิยมที่มีชุดข้อมูลจำนวนมาก เราใช้ MultiRC เนื่องจากคุณสมบัติที่ต้องการหลายประการ: (i) คำถามแต่ละข้อสามารถมีคำตอบที่ถูกต้องได้หลายข้อ ดังนั้น คู่คำถาม-คำตอบแต่ละคู่จะต้องได้รับการประเมินโดยไม่ขึ้นกับคู่อื่นๆ (ii) คำถามได้รับการออกแบบให้ตอบคำถามแต่ละข้อ ดึงข้อเท็จจริงจากประโยคบริบทหลายประโยค และ (iii) รูปแบบคู่คำถาม-คำตอบตรงกับ API ของงาน SuperGLUE อื่นๆ มากกว่า QA แบบแยกตามช่วง ย่อหน้ามาจากเจ็ดโดเมน ได้แก่ ข่าว นวนิยาย และข้อความทางประวัติศาสตร์
โฮมเพจ : https://cogcomp.org/multirc/
ขนาดการดาวน์โหลด :
1.06 MiB
ขนาดชุดข้อมูล :
70.39 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 9,693 |
'train' | 27,243 |
'validation' | 4,848 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'answer': Text(shape=(), dtype=string),
'idx': FeaturesDict({
'answer': int32,
'paragraph': int32,
'question': int32,
}),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
คำตอบ | ข้อความ | สตริง | ||
idx | คุณสมบัติDict | |||
รหัส/คำตอบ | เทนเซอร์ | int32 | ||
idx/ย่อหน้า | เทนเซอร์ | int32 | ||
idx/คำถาม | เทนเซอร์ | int32 | ||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
ย่อหน้า | ข้อความ | สตริง | ||
คำถาม | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{MultiRC2018,
author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
year = {2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/บันทึก
คำอธิบาย การกำหนดค่า : (Reading Comprehension with Commonsense Reasoning Dataset, Zhang et al., 2018) เป็นงาน QA แบบปรนัย แต่ละตัวอย่างประกอบด้วยบทความข่าวและคำถามแบบโคลสอัพเกี่ยวกับบทความที่มีการปิดบังข้อมูลหนึ่งรายการ ระบบจะต้องทำนายเอนทิตีที่ถูกปกปิดจากรายการที่ระบุของเอนทิตีที่เป็นไปได้ในเนื้อเรื่องที่ให้มา โดยที่เอนทิตีเดียวกันอาจแสดงโดยใช้รูปแบบพื้นผิวที่แตกต่างกันหลายแบบ ซึ่งทั้งหมดนี้ถือว่าถูกต้อง บทความนำมาจาก CNN และ Daily Mail หลังจากงานต้นฉบับ เราประเมินด้วย F1 ระดับโทเค็นสูงสุด (มากกว่าการกล่าวถึงทั้งหมด) และการจับคู่แบบตรงทั้งหมด (EM)
ขนาดการดาวน์โหลด :
49.36 MiB
ขนาดชุดข้อมูล :
166.40 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 10,000 |
'train' | 100,730 |
'validation' | 10,000 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'answers': Sequence(Text(shape=(), dtype=string)),
'entities': Sequence(Text(shape=(), dtype=string)),
'idx': FeaturesDict({
'passage': int32,
'query': int32,
}),
'passage': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
คำตอบ | ลำดับ (ข้อความ) | (ไม่มี,) | สตริง | |
เอนทิตี | ลำดับ (ข้อความ) | (ไม่มี,) | สตริง | |
idx | คุณสมบัติDict | |||
idx/ทาง | เทนเซอร์ | int32 | ||
idx/สอบถาม | เทนเซอร์ | int32 | ||
ทางเดิน | ข้อความ | สตริง | ||
สอบถาม | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{zhang2018record,
title={Record: Bridging the gap between human and machine commonsense reading comprehension},
author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
journal={arXiv preprint arXiv:1810.12885},
year={2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/rte
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Recognizing Textual Entailment (RTE) มาจากชุดของการแข่งขันประจำปีเกี่ยวกับ Textual Entailment ซึ่งเป็นปัญหาในการทำนายว่าประโยคหลักฐานที่กำหนดเกี่ยวข้องกับประโยคสมมติฐานที่กำหนดหรือไม่ (หรือที่เรียกว่าการอนุมานภาษาธรรมชาติ, NLI) ก่อนหน้านี้ RTE รวมอยู่ใน GLUE และเราใช้ข้อมูลและรูปแบบเดิมเช่นเดิม: เราผสานข้อมูลจาก RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) และ RTE5 (Bentivogli et al., 2009) ชุดข้อมูลทั้งหมดจะถูกรวมเข้าด้วยกันและแปลงเป็นการจัดหมวดหมู่แบบสองคลาส: entailment และ not_entailment ในบรรดางาน GLUE ทั้งหมดนั้น RTE เป็นหนึ่งในงานที่ได้รับประโยชน์จากการถ่ายโอนการเรียนรู้มากที่สุด โดยก้าวกระโดดจากประสิทธิภาพที่ใกล้เคียงกับโอกาสสุ่ม (~56%) ณ เวลาที่เปิดตัว GLUE เป็นความแม่นยำ 85% (Liu et al., 2019c) ที่ เวลาที่เขียน เมื่อคำนึงถึงช่องว่างแปดจุดที่เกี่ยวกับประสิทธิภาพของมนุษย์ อย่างไรก็ตาม งานดังกล่าวยังไม่ได้รับการแก้ไขด้วยเครื่องจักร และเราคาดว่าช่องว่างที่เหลือจะยากที่จะปิดลง
หน้าแรก : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment
ขนาดการดาวน์โหลด :
733.32 KiB
ขนาดชุดข้อมูล :
2.15 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 3,000 |
'train' | 2,490 |
'validation' | 277 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
สมมติฐาน | ข้อความ | สตริง | ||
idx | เทนเซอร์ | int32 | ||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
หลักฐาน | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{dagan2005pascal,
title={The PASCAL recognising textual entailment challenge},
author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
booktitle={Machine Learning Challenges Workshop},
pages={177--190},
year={2005},
organization={Springer}
}
@inproceedings{bar2006second,
title={The second pascal recognising textual entailment challenge},
author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
volume={6},
number={1},
pages={6--4},
year={2006},
organization={Venice}
}
@inproceedings{giampiccolo2007third,
title={The third pascal recognizing textual entailment challenge},
author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
pages={1--9},
year={2007},
organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
booktitle={TAC},
year={2009}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/วิค
คำอธิบาย การกำหนดค่า : ชุดข้อมูล Word-in-Context (WiC, Pilehvar และ Camacho-Collados, 2019) รองรับงานแก้ความกำกวมของคำที่ส่งเป็นการจำแนกประเภทไบนารีเหนือคู่ประโยค กำหนดประโยคสองประโยคและคำหลายคำ (ความหมายกำกวม) ที่ปรากฏในทั้งสองประโยค งานคือการพิจารณาว่าคำนั้นถูกใช้ด้วยความหมายเดียวกันในทั้งสองประโยคหรือไม่ ประโยคมาจาก WordNet (Miller, 1995), VerbNet (Schuler, 2005) และ Wiktionary เราติดตามงานต้นฉบับและประเมินโดยใช้ความถูกต้อง
หน้าแรก : https://pilehvar.github.io/wic/
ขนาดการดาวน์โหลด :
386.93 KiB
ขนาดชุดข้อมูล :
1.67 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,400 |
'train' | 5,428 |
'validation' | 638 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'end1': int32,
'end2': int32,
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
'start1': int32,
'start2': int32,
'word': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
จบ1 | เทนเซอร์ | int32 | ||
สิ้นสุด2 | เทนเซอร์ | int32 | ||
idx | เทนเซอร์ | int32 | ||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
ประโยค1 | ข้อความ | สตริง | ||
ประโยค2 | ข้อความ | สตริง | ||
เริ่มต้น1 | เทนเซอร์ | int32 | ||
เริ่มต้น2 | เทนเซอร์ | int32 | ||
คำ | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{DBLP:journals/corr/abs-1808-09121,
author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
journal={CoRR},
volume={abs/1808.09121},
year={2018},
url={http://arxiv.org/abs/1808.09121},
archivePrefix={arXiv},
eprint={1808.09121},
timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wsc
- คำอธิบาย การกำหนดค่า: Winograd Schema Challenge (WSC, Levesque et al., 2012) เป็นงานอ่านจับใจความที่ระบบต้องอ่านประโยคที่มีสรรพนามและเลือกผู้อ้างอิงของสรรพนามนั้นจากรายการตัวเลือก เมื่อพิจารณาถึงความยากลำบากของงานนี้และ headroom ที่เหลืออยู่ เราได้รวม WSC ไว้ใน SuperGLUE และสร้างชุดข้อมูลใหม่ในรูปแบบ coreference งานนี้ถูกโยนให้เป็นปัญหาการจำแนกประเภทไบนารี ซึ่งตรงข้ามกับ N-ปรนัย เพื่อแยกความสามารถของแบบจำลองในการทำความเข้าใจการเชื่อมโยงแกนกลางภายในประโยค ซึ่งตรงข้ามกับกลวิธีอื่นๆ ที่อาจเข้ามาเล่นในเงื่อนไขปรนัย ด้วยเหตุนี้ เราจึงสร้างการแบ่งแยกด้วยคลาสส่วนใหญ่เชิงลบ 65% ในชุดการตรวจสอบ ซึ่งสะท้อนถึงการกระจายของชุดการทดสอบที่ซ่อนอยู่ และคลาสเชิงลบ 52% ในชุดการฝึกอบรม ตัวอย่างการฝึกอบรมและการตรวจสอบนั้นดึงมาจากชุดข้อมูล Winograd Schema ดั้งเดิม (Levesque et al., 2012) รวมถึงที่เผยแพร่โดย Commonsense Reasoning ซึ่งเป็นองค์กรในเครือ ตัวอย่างการทดสอบได้มาจากหนังสือนิยายและได้รับการแบ่งปันกับเราโดยผู้เขียนชุดข้อมูลต้นฉบับ ก่อนหน้านี้ เวอร์ชันของ WSC แปลงใหม่เป็น NLI ซึ่งรวมอยู่ใน GLUE หรือที่เรียกว่า WNLI ไม่มีความคืบหน้าอย่างมากใน WNLI โดยมีการส่งจำนวนมากที่เลือกที่จะส่งเฉพาะการคาดคะเนระดับเสียงข้างมาก WNLI นั้นยากเป็นพิเศษเนื่องจากการแยกขบวน/การพัฒนาของฝ่ายตรงข้าม: ประโยคหลักฐานที่ปรากฏในชุดการฝึกบางครั้งปรากฏในชุดการพัฒนาโดยมีสมมติฐานที่แตกต่างกันและป้ายกำกับที่พลิกกลับ หากระบบจดจำชุดการฝึกโดยไม่มีการสรุปอย่างมีความหมาย ซึ่งเป็นเรื่องง่ายเนื่องจากชุดการฝึกมีขนาดเล็ก ระบบอาจทำได้ต่ำกว่าโอกาสในการพัฒนาชุดมาก เราลบการออกแบบที่เป็นปฏิปักษ์นี้ใน WSC เวอร์ชัน SuperGLUE โดยตรวจสอบให้แน่ใจว่าไม่มีการแชร์ประโยคระหว่างการฝึกอบรม การตรวจสอบ และชุดการทดสอบ
อย่างไรก็ตาม ชุดการตรวจสอบความถูกต้องและการทดสอบมาจากโดเมนที่แตกต่างกัน โดยชุดการตรวจสอบความถูกต้องประกอบด้วยตัวอย่างที่กำกวม เช่น การเปลี่ยนคำวลีที่ไม่ใช่คำนามหนึ่งคำจะเปลี่ยนการขึ้นต่อกันของแกนกลางในประโยค ชุดทดสอบประกอบด้วยตัวอย่างที่ตรงไปตรงมามากขึ้นเท่านั้น โดยมีวลีนามจำนวนมาก (และมีตัวเลือกมากขึ้นสำหรับแบบจำลอง) แต่มีความกำกวมต่ำถึงไม่มีเลย
หน้าแรก : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
ขนาดการดาวน์โหลด :
31.98 KiB
ขนาดชุดข้อมูล :
219.70 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
idx | เทนเซอร์ | int32 | ||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
span1_index | เทนเซอร์ | int32 | ||
span1_text | ข้อความ | สตริง | ||
span2_index | เทนเซอร์ | int32 | ||
span2_text | ข้อความ | สตริง | ||
ข้อความ | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wsc.fixed
- คำอธิบาย การกำหนดค่า: Winograd Schema Challenge (WSC, Levesque et al., 2012) เป็นงานอ่านจับใจความที่ระบบต้องอ่านประโยคที่มีสรรพนามและเลือกผู้อ้างอิงของสรรพนามนั้นจากรายการตัวเลือก เมื่อพิจารณาถึงความยากลำบากของงานนี้และ headroom ที่เหลืออยู่ เราได้รวม WSC ไว้ใน SuperGLUE และสร้างชุดข้อมูลใหม่ในรูปแบบ coreference งานนี้ถูกโยนให้เป็นปัญหาการจำแนกประเภทไบนารี ซึ่งตรงข้ามกับ N-ปรนัย เพื่อแยกความสามารถของแบบจำลองในการทำความเข้าใจการเชื่อมโยงแกนกลางภายในประโยค ซึ่งตรงข้ามกับกลวิธีอื่นๆ ที่อาจเข้ามาเล่นในเงื่อนไขปรนัย ด้วยเหตุนี้ เราจึงสร้างการแบ่งแยกด้วยคลาสส่วนใหญ่เชิงลบ 65% ในชุดการตรวจสอบ ซึ่งสะท้อนถึงการกระจายของชุดการทดสอบที่ซ่อนอยู่ และคลาสเชิงลบ 52% ในชุดการฝึกอบรม ตัวอย่างการฝึกอบรมและการตรวจสอบนั้นดึงมาจากชุดข้อมูล Winograd Schema ดั้งเดิม (Levesque et al., 2012) รวมถึงที่เผยแพร่โดย Commonsense Reasoning ซึ่งเป็นองค์กรในเครือ ตัวอย่างการทดสอบได้มาจากหนังสือนิยายและได้รับการแบ่งปันกับเราโดยผู้เขียนชุดข้อมูลต้นฉบับ ก่อนหน้านี้ เวอร์ชันของ WSC แปลงใหม่เป็น NLI ซึ่งรวมอยู่ใน GLUE หรือที่เรียกว่า WNLI ไม่มีความคืบหน้าอย่างมากใน WNLI โดยมีการส่งจำนวนมากที่เลือกที่จะส่งเฉพาะการคาดคะเนระดับเสียงข้างมาก WNLI นั้นยากเป็นพิเศษเนื่องจากการแยกขบวน/การพัฒนาของฝ่ายตรงข้าม: ประโยคหลักฐานที่ปรากฏในชุดการฝึกบางครั้งปรากฏในชุดการพัฒนาโดยมีสมมติฐานที่แตกต่างกันและป้ายกำกับที่พลิกกลับ หากระบบจดจำชุดการฝึกโดยไม่มีการสรุปอย่างมีความหมาย ซึ่งเป็นเรื่องง่ายเนื่องจากชุดการฝึกมีขนาดเล็ก ระบบอาจทำได้ต่ำกว่าโอกาสในการพัฒนาชุดมาก เราลบการออกแบบที่เป็นปฏิปักษ์นี้ใน WSC เวอร์ชัน SuperGLUE โดยตรวจสอบให้แน่ใจว่าไม่มีการแชร์ประโยคระหว่างการฝึกอบรม การตรวจสอบ และชุดการทดสอบ
อย่างไรก็ตาม ชุดการตรวจสอบความถูกต้องและการทดสอบมาจากโดเมนที่แตกต่างกัน โดยชุดการตรวจสอบความถูกต้องประกอบด้วยตัวอย่างที่กำกวม เช่น การเปลี่ยนคำวลีที่ไม่ใช่คำนามหนึ่งคำจะเปลี่ยนการขึ้นต่อกันของแกนกลางในประโยค ชุดทดสอบประกอบด้วยตัวอย่างที่ตรงไปตรงมามากขึ้นเท่านั้น โดยมีวลีนามจำนวนมาก (และมีตัวเลือกมากขึ้นสำหรับแบบจำลอง) แต่มีความกำกวมต่ำถึงไม่มีเลย
เวอร์ชันนี้แก้ไขปัญหาที่ช่วงไม่ใช่สตริงย่อยของข้อความ
หน้าแรก : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
ขนาดการดาวน์โหลด :
31.98 KiB
ขนาดชุดข้อมูล :
219.70 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
idx | เทนเซอร์ | int32 | ||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
span1_index | เทนเซอร์ | int32 | ||
span1_text | ข้อความ | สตริง | ||
span2_index | เทนเซอร์ | int32 | ||
span2_text | ข้อความ | สตริง | ||
ข้อความ | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/axb
คำอธิบาย การกำหนดค่า : ชุดข้อมูลการวินิจฉัยที่สร้างขึ้นโดยผู้เชี่ยวชาญซึ่งจะทดสอบโมเดลโดยอัตโนมัติสำหรับความรู้ด้านภาษาศาสตร์ สามัญสำนึก และโลกที่หลากหลายโดยอัตโนมัติ แต่ละตัวอย่างในการวินิจฉัยที่ครอบคลุมนี้เป็นคู่ประโยคที่มีป้ายกำกับความสัมพันธ์แบบสามทาง (ความเกี่ยวข้อง ความเป็นกลาง หรือความขัดแย้ง) และแท็กด้วยป้ายกำกับที่บ่งชี้ปรากฏการณ์ที่แสดงลักษณะความสัมพันธ์ระหว่างสองประโยค การส่งไปยังลีดเดอร์บอร์ด GLUE จำเป็นต้องรวมการคาดคะเนจากตัวแยกประเภท MultiNLI ของการส่งในชุดข้อมูลการวินิจฉัย และการวิเคราะห์ผลลัพธ์จะแสดงควบคู่ไปกับลีดเดอร์บอร์ดหลัก เนื่องจากงานวินิจฉัยที่ครอบคลุมกว้างนี้พิสูจน์แล้วว่าเป็นเรื่องยากสำหรับรุ่นยอดนิยม เราจึงเก็บงานดังกล่าวไว้ใน SuperGLUE อย่างไรก็ตาม เนื่องจาก MultiNLI ไม่ใช่ส่วนหนึ่งของ SuperGLUE เราจึงยุบความขัดแย้งและเป็นกลางลงในป้ายกำกับ not_entailment เดียว และขอให้ผลงานที่ส่งรวมการคาดคะเนชุดผลลัพธ์จากโมเดลที่ใช้สำหรับงาน RTE
หน้าแรก : https://gluebenchmark.com/diagnostics
ขนาดการดาวน์โหลด :
33.15 KiB
ขนาดชุดข้อมูล :
290.53 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,104 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
idx | เทนเซอร์ | int32 | ||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
ประโยค1 | ข้อความ | สตริง | ||
ประโยค2 | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/axg
คำอธิบาย การกำหนดค่า: Winogender ได้รับการออกแบบมาเพื่อวัดอคติทางเพศในระบบความละเอียดของแกนกลาง เราใช้เวอร์ชัน Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) ที่แปลง Winogender เป็นงานแสดงข้อความ แต่ละตัวอย่างประกอบด้วยประโยคแสดงหลักฐานที่มีคำสรรพนามเป็นเพศชายหรือเพศหญิง และสมมติฐานที่ให้คำนำหน้าที่เป็นไปได้ของคำสรรพนาม ตัวอย่างเกิดขึ้นในคู่ที่น้อยที่สุด โดยที่ข้อแตกต่างเพียงอย่างเดียวระหว่างตัวอย่างและคู่ของมันคือเพศของคำสรรพนามในหลักฐาน ประสิทธิภาพของ Winoender วัดได้จากทั้งความแม่นยำและคะแนนความเท่าเทียมทางเพศ: เปอร์เซ็นต์ของคู่ขั้นต่ำที่การคาดคะเนเหมือนกัน เราทราบว่าระบบสามารถได้รับคะแนนความเท่าเทียมกันทางเพศที่สมบูรณ์แบบได้เล็กน้อยโดยการเดากลุ่มเดียวกันสำหรับตัวอย่างทั้งหมด ดังนั้นคะแนนความเท่าเทียมทางเพศที่สูงจะไม่มีความหมายเว้นแต่จะมีความแม่นยำสูง ในฐานะที่เป็นการทดสอบวินิจฉัยอคติทางเพศ เรามองว่าสกีมามีค่าการทำนายเชิงบวกสูงและค่าการทำนายเชิงลบต่ำ นั่นคือ พวกเขาอาจแสดงให้เห็นถึงการมีอคติทางเพศในระบบ แต่ไม่สามารถพิสูจน์ได้ว่าไม่มีอยู่จริง
ขนาดการดาวน์โหลด :
10.17 KiB
ขนาดชุดข้อมูล :
69.75 KiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 356 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
สมมติฐาน | ข้อความ | สตริง | ||
idx | เทนเซอร์ | int32 | ||
ฉลาก | ป้ายกำกับคลาส | int64 | ||
หลักฐาน | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@inproceedings{rudinger-EtAl:2018:N18,
author = {Rudinger, Rachel and Naradowsky, Jason and Leonard, Brian and {Van Durme}, Benjamin},
title = {Gender Bias in Coreference Resolution},
booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2018},
address = {New Orleans, Louisiana},
publisher = {Association for Computational Linguistics}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.