lem super

  • Deskripsi :

SuperGLUE ( https://super.gluebenchmark.com/ ) adalah tolok ukur baru yang ditata setelah GLUE dengan serangkaian tugas pemahaman bahasa yang lebih sulit, sumber daya yang ditingkatkan, dan papan peringkat publik baru.

super_glue/boolq (konfigurasi default)

  • Deskripsi konfigurasi : BoolQ (Boolean Questions, Clark et al., 2019a) adalah tugas QA di mana setiap contoh terdiri dari bagian pendek dan pertanyaan ya/tidak tentang bagian tersebut. Pertanyaan diberikan secara anonim dan tidak diminta oleh pengguna mesin pencari Google, dan kemudian dipasangkan dengan paragraf dari artikel Wikipedia yang berisi jawabannya. Mengikuti karya asli, kami mengevaluasi dengan akurat.

  • Beranda : https://github.com/google-research-datasets/boolean-questions

  • Ukuran unduhan : 3.93 MiB

  • Ukuran dataset : 10.75 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 3.245
'train' 9.427
'validation' 3.270
  • Struktur fitur :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
idx Tensor int32
label LabelKelas int64
jalan Teks rangkaian
pertanyaan Teks rangkaian
  • Kutipan :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

lem_super/cb

  • Deskripsi Config : CommitmentBank (De Marneffe et al., 2019) adalah korpus teks pendek di mana setidaknya satu kalimat berisi klausa yang disematkan. Masing-masing klausa yang disematkan ini dianotasi dengan sejauh mana kita berharap bahwa orang yang menulis teks berkomitmen pada kebenaran klausa tersebut. Tugas yang dihasilkan dibingkai sebagai keterlibatan tekstual tiga kelas pada contoh yang diambil dari Wall Street Journal, fiksi dari British National Corpus, dan Switchboard. Setiap contoh terdiri dari premis yang mengandung klausa tertanam dan hipotesis yang sesuai adalah ekstraksi dari klausa itu. Kami menggunakan subkumpulan data yang memiliki kesepakatan antar-annotator di atas 0,85. Data tidak seimbang (relatif lebih sedikit contoh netral), jadi kami mengevaluasi menggunakan akurasi dan F1, di mana untuk multi-kelas F1 kami menghitung rata-rata tak tertimbang dari F1 per kelas.

  • Beranda : https://github.com/mcdm/CommitmentBank

  • Ukuran unduhan : 73.71 KiB

  • Ukuran dataset : 229.28 KiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 250
'train' 250
'validation' 56
  • Struktur fitur :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
hipotesa Teks rangkaian
idx Tensor int32
label LabelKelas int64
premis Teks rangkaian
  • Kutipan :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/copa

  • Deskripsi konfigurasi : The Choice Of Plausible Alternatives (COPA, Roemmele et al., 2011) dataset adalah tugas penalaran kausal di mana sistem diberi kalimat premis dan dua kemungkinan alternatif. Sistem harus memilih alternatif yang memiliki hubungan kausal yang lebih masuk akal dengan premis. Metode yang digunakan untuk membangun alternatif memastikan bahwa tugas membutuhkan penalaran kausal untuk menyelesaikannya. Contohnya berurusan dengan kemungkinan penyebab alternatif atau kemungkinan efek alternatif dari kalimat premis, disertai dengan pertanyaan sederhana yang membedakan antara dua jenis contoh untuk model tersebut. Semua contoh dibuat dengan tangan dan fokus pada topik dari blog online dan ensiklopedia terkait fotografi. Mengikuti rekomendasi dari penulis, kami mengevaluasi menggunakan akurasi.

  • Beranda : http://people.ict.usc.edu/~gordon/copa.html

  • Ukuran unduhan : 42.96 KiB

  • Ukuran dataset : 196.00 KiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 500
'train' 400
'validation' 100
  • Struktur fitur :
FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
pilihan1 Teks rangkaian
pilihan2 Teks rangkaian
idx Tensor int32
label LabelKelas int64
premis Teks rangkaian
pertanyaan Teks rangkaian
  • Kutipan :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • Deskripsi konfigurasi : Kumpulan data Pemahaman Membaca Multi-Kalimat (MultiRC, Khashabi et al., 2018) adalah tugas menjawab pertanyaan benar/salah. Setiap contoh terdiri dari paragraf konteks, pertanyaan tentang paragraf itu, dan daftar kemungkinan jawaban untuk pertanyaan itu yang harus diberi label benar atau salah. Question-answering (QA) adalah masalah yang populer dengan banyak kumpulan data. Kami menggunakan MultiRC karena sejumlah properti yang diinginkan: (i) setiap pertanyaan dapat memiliki banyak kemungkinan jawaban yang benar, sehingga setiap pasangan pertanyaan-jawaban harus dievaluasi secara independen dari pasangan lainnya, (ii) pertanyaan dirancang sedemikian rupa sehingga menjawab setiap pertanyaan membutuhkan menggambar fakta dari beberapa kalimat konteks, dan (iii) format pasangan pertanyaan-jawaban lebih cocok dengan API tugas SuperGLUE lainnya daripada QA ekstraktif berbasis span. Paragraf diambil dari tujuh domain termasuk berita, fiksi, dan teks sejarah.

  • Beranda : https://cogcomp.org/multirc/

  • Ukuran unduhan : 1.06 MiB

  • Ukuran dataset : 70.39 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 9.693
'train' 27.243
'validation' 4.848
  • Struktur fitur :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
menjawab Teks rangkaian
idx fiturDict
idx/jawaban Tensor int32
idx/paragraf Tensor int32
idx/pertanyaan Tensor int32
label LabelKelas int64
gugus kalimat Teks rangkaian
pertanyaan Teks rangkaian
  • Kutipan :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

lem_super/rekam

  • Deskripsi konfigurasi : (Reading Comprehension with Commonsense Reasoning Dataset, Zhang et al., 2018) adalah tugas QA pilihan ganda. Setiap contoh terdiri dari artikel berita dan pertanyaan bergaya Cloze tentang artikel di mana satu entitas disamarkan. Sistem harus memprediksi entitas bertopeng dari daftar entitas yang mungkin ada dalam bagian yang disediakan, di mana entitas yang sama dapat diekspresikan menggunakan berbagai bentuk permukaan yang berbeda, yang semuanya dianggap benar. Artikel diambil dari CNN dan Daily Mail. Mengikuti karya asli, kami mengevaluasi dengan F1 level token maks (di atas semua penyebutan) dan pencocokan tepat (EM).

  • Beranda : https://sheng-z.github.io/ReCoRD-explorer/

  • Ukuran unduhan : 49.36 MiB

  • Ukuran dataset : 166.40 MiB

  • Auto-cached ( dokumentasi ): Ya (test, validasi), Hanya ketika shuffle_files=False (train)

  • Perpecahan :

Membelah Contoh
'test' 10.000
'train' 100.730
'validation' 10.000
  • Struktur fitur :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
jawaban Urutan (Teks) (Tidak ada,) rangkaian
entitas Urutan (Teks) (Tidak ada,) rangkaian
idx fiturDict
idx/bagian Tensor int32
idx/kueri Tensor int32
jalan Teks rangkaian
pertanyaan Teks rangkaian
  • Kutipan :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

  • Deskripsi Config : Kumpulan data Recognizing Textual Entailment (RTE) berasal dari serangkaian kompetisi tahunan tentang keterkaitan tekstual, masalah memprediksi apakah kalimat premis tertentu memerlukan kalimat hipotesis tertentu (juga dikenal sebagai inferensi bahasa alami, NLI). RTE sebelumnya disertakan dalam GLUE, dan kami menggunakan data dan format yang sama seperti sebelumnya: Kami menggabungkan data dari RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007), dan RTE5 (Bentivogli et al., 2009). Semua dataset digabungkan dan diubah menjadi klasifikasi dua kelas: entailment dan not_entailment. Dari semua tugas GLUE, RTE adalah salah satu yang paling diuntungkan dari pembelajaran transfer, melompat dari kinerja peluang acak (~56%) pada saat peluncuran GLUE ke akurasi 85% (Liu et al., 2019c) pada waktu penulisan. Namun, mengingat kesenjangan delapan poin sehubungan dengan kinerja manusia, tugas tersebut belum diselesaikan oleh mesin, dan kami memperkirakan celah yang tersisa akan sulit untuk ditutup.

  • Beranda : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Ukuran unduhan : 733.32 KiB

  • Ukuran dataset : 2.15 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 3.000
'train' 2.490
'validation' 277
  • Struktur fitur :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
hipotesa Teks rangkaian
idx Tensor int32
label LabelKelas int64
premis Teks rangkaian
  • Kutipan :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

  • Deskripsi konfigurasi : Dataset Word-in-Context (WiC, Pilehvar dan Camacho-Collados, 2019) mendukung tugas disambiguasi pengertian kata yang dilemparkan sebagai klasifikasi biner pada pasangan kalimat. Diberikan dua kalimat dan kata polisemik (sense-ambigu) yang muncul di kedua kalimat, tugasnya adalah menentukan apakah kata tersebut digunakan dengan arti yang sama di kedua kalimat. Kalimat diambil dari WordNet (Miller, 1995), VerbNet (Schuler, 2005), dan Wiktionary. Kami mengikuti karya asli dan mengevaluasi menggunakan akurasi.

  • Beranda : https://pilehvar.github.io/wic/

  • Ukuran unduhan : 386.93 KiB

  • Ukuran dataset : 1.67 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 1.400
'train' 5.428
'validation' 638
  • Struktur fitur :
FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
akhir1 Tensor int32
akhir2 Tensor int32
idx Tensor int32
label LabelKelas int64
kalimat1 Teks rangkaian
kalimat2 Teks rangkaian
mulai1 Tensor int32
mulai2 Tensor int32
kata Teks rangkaian
  • Kutipan :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • Deskripsi konfigurasi : Tantangan Skema Winograd (WSC, Levesque et al., 2012) adalah tugas pemahaman bacaan di mana sistem harus membaca kalimat dengan kata ganti dan memilih rujukan kata ganti tersebut dari daftar pilihan. Mengingat sulitnya tugas ini dan ruang kepala masih tersisa, kami telah menyertakan WSC di SuperGLUE dan menyusun ulang kumpulan data ke dalam bentuk referensi utamanya. Tugas dilemparkan sebagai masalah klasifikasi biner, sebagai lawan dari N-pilihan ganda, untuk mengisolasi kemampuan model untuk memahami tautan referensi dalam kalimat sebagai lawan dari berbagai strategi lain yang mungkin ikut bermain dalam kondisi pilihan ganda. Dengan pemikiran tersebut, kami membuat pemisahan dengan 65% kelas mayoritas negatif di set validasi, yang mencerminkan distribusi set pengujian tersembunyi, dan 52% kelas negatif di set pelatihan. Contoh pelatihan dan validasi diambil dari dataset Skema Winograd asli (Levesque et al., 2012), serta yang didistribusikan oleh organisasi afiliasi Commonsense Reasoning. Contoh uji berasal dari buku fiksi dan telah dibagikan kepada kami oleh penulis kumpulan data asli. Sebelumnya, versi WSC disusun ulang sebagai NLI sebagaimana disertakan dalam LEM, yang dikenal sebagai WNLI. Tidak ada kemajuan substansial yang dibuat pada WNLI, dengan banyak pengajuan memilih untuk hanya mengirimkan prediksi kelas mayoritas. WNLI dibuat sangat sulit karena pemisahan kereta/pengembangan permusuhan: Kalimat premis yang muncul di set pelatihan terkadang muncul di set pengembangan dengan hipotesis berbeda dan label terbalik. Jika suatu sistem menghafal set pelatihan tanpa menggeneralisasi secara bermakna, yang mudah karena ukuran set pelatihan yang kecil, ia dapat bekerja jauh di bawah peluang pada set pengembangan. Kami menghapus desain permusuhan ini dalam WSC versi SuperGLUE dengan memastikan bahwa tidak ada kalimat yang digunakan bersama antara set pelatihan, validasi, dan pengujian.

Namun, set validasi dan tes berasal dari domain yang berbeda, dengan set validasi yang terdiri dari contoh ambigu sehingga mengubah satu kata frase non-nomina akan mengubah dependensi koreferensi dalam kalimat. Set tes hanya terdiri dari contoh yang lebih mudah, dengan jumlah frase kata benda yang tinggi (dan dengan demikian lebih banyak pilihan untuk model), tetapi ambiguitas rendah hingga tidak ada.

Membelah Contoh
'test' 146
'train' 554
'validation' 104
  • Struktur fitur :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
idx Tensor int32
label LabelKelas int64
span1_index Tensor int32
span1_text Teks rangkaian
span2_index Tensor int32
span2_text Teks rangkaian
teks Teks rangkaian
  • Kutipan :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.diperbaiki

  • Deskripsi konfigurasi : Tantangan Skema Winograd (WSC, Levesque et al., 2012) adalah tugas pemahaman bacaan di mana sistem harus membaca kalimat dengan kata ganti dan memilih rujukan kata ganti tersebut dari daftar pilihan. Mengingat sulitnya tugas ini dan ruang kepala masih tersisa, kami telah menyertakan WSC di SuperGLUE dan menyusun ulang kumpulan data ke dalam bentuk referensi utamanya. Tugas dilemparkan sebagai masalah klasifikasi biner, sebagai lawan dari N-pilihan ganda, untuk mengisolasi kemampuan model untuk memahami tautan referensi dalam kalimat sebagai lawan dari berbagai strategi lain yang mungkin ikut bermain dalam kondisi pilihan ganda. Dengan pemikiran tersebut, kami membuat pemisahan dengan 65% kelas mayoritas negatif di set validasi, yang mencerminkan distribusi set pengujian tersembunyi, dan 52% kelas negatif di set pelatihan. Contoh pelatihan dan validasi diambil dari dataset Skema Winograd asli (Levesque et al., 2012), serta yang didistribusikan oleh organisasi afiliasi Commonsense Reasoning. Contoh uji berasal dari buku fiksi dan telah dibagikan kepada kami oleh penulis kumpulan data asli. Sebelumnya, versi WSC disusun ulang sebagai NLI sebagaimana disertakan dalam LEM, yang dikenal sebagai WNLI. Tidak ada kemajuan substansial yang dibuat pada WNLI, dengan banyak pengajuan memilih untuk hanya mengirimkan prediksi kelas mayoritas. WNLI dibuat sangat sulit karena pemisahan kereta/pengembangan permusuhan: Kalimat premis yang muncul di set pelatihan terkadang muncul di set pengembangan dengan hipotesis berbeda dan label terbalik. Jika suatu sistem menghafal set pelatihan tanpa menggeneralisasi secara bermakna, yang mudah karena ukuran set pelatihan yang kecil, ia dapat bekerja jauh di bawah peluang pada set pengembangan. Kami menghapus desain permusuhan ini dalam WSC versi SuperGLUE dengan memastikan bahwa tidak ada kalimat yang digunakan bersama antara set pelatihan, validasi, dan pengujian.

Namun, set validasi dan tes berasal dari domain yang berbeda, dengan set validasi yang terdiri dari contoh ambigu sehingga mengubah satu kata frase non-nomina akan mengubah dependensi koreferensi dalam kalimat. Set tes hanya terdiri dari contoh yang lebih mudah, dengan jumlah frase kata benda yang tinggi (dan dengan demikian lebih banyak pilihan untuk model), tetapi ambiguitas rendah hingga tidak ada.

Versi ini memperbaiki masalah di mana span sebenarnya bukan substring dari teks.

Membelah Contoh
'test' 146
'train' 554
'validation' 104
  • Struktur fitur :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
idx Tensor int32
label LabelKelas int64
span1_index Tensor int32
span1_text Teks rangkaian
span2_index Tensor int32
span2_text Teks rangkaian
teks Teks rangkaian
  • Kutipan :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • Deskripsi konfigurasi : Kumpulan data diagnostik yang dibuat oleh pakar yang secara otomatis menguji model untuk berbagai pengetahuan linguistik, akal sehat, dan dunia. Setiap contoh dalam diagnostik bercakupan luas ini adalah pasangan kalimat yang diberi label dengan relasi tiga arah (entailment, netral, atau kontradiksi) dan diberi label yang menunjukkan fenomena yang mencirikan hubungan antara kedua kalimat tersebut. Pengajuan ke papan peringkat GLUE harus menyertakan prediksi dari pengklasifikasi MultiNLI kiriman pada kumpulan data diagnostik, dan analisis hasil ditampilkan di samping papan peringkat utama. Karena tugas diagnostik cakupan luas ini terbukti sulit untuk model teratas, kami mempertahankannya di SuperGLUE. Namun, karena MultiNLI bukan bagian dari SuperGLUE, kami menciutkan kontradiksi dan netral ke dalam satu label not_entailment, dan meminta pengiriman menyertakan prediksi pada set yang dihasilkan dari model yang digunakan untuk tugas RTE.

  • Beranda : https://gluebenchmark.com/diagnostics

  • Ukuran unduhan : 33.15 KiB

  • Ukuran dataset : 290.53 KiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 1.104
  • Struktur fitur :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
idx Tensor int32
label LabelKelas int64
kalimat1 Teks rangkaian
kalimat2 Teks rangkaian
  • Kutipan :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • Deskripsi konfigurasi : Winogender dirancang untuk mengukur bias gender dalam sistem resolusi coreference. Kami menggunakan versi Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) yang menempatkan Winogender sebagai tugas keterlibatan tekstual. Setiap contoh terdiri dari kalimat premis dengan kata ganti laki-laki atau perempuan dan hipotesis yang memberikan kemungkinan anteseden dari kata ganti tersebut. Contoh muncul dalam pasangan minimal, di mana satu-satunya perbedaan antara contoh dan pasangannya adalah jenis kelamin kata ganti di premis. Performa pada Winogender diukur dengan akurasi dan skor paritas gender: persentase pasangan minimal yang prediksinya sama. Kami mencatat bahwa suatu sistem dapat dengan mudah memperoleh skor paritas gender yang sempurna dengan menebak kelas yang sama untuk semua contoh, sehingga skor paritas gender yang tinggi tidak ada artinya kecuali disertai dengan akurasi yang tinggi. Sebagai tes diagnostik bias gender, kami melihat skema tersebut memiliki nilai prediksi positif yang tinggi dan nilai prediksi negatif yang rendah; yaitu, mereka mungkin menunjukkan adanya bias gender dalam suatu sistem, tetapi tidak membuktikan ketidakhadirannya.

  • Beranda : https://github.com/rudinger/winogender-schemas

  • Ukuran unduhan : 10.17 KiB

  • Ukuran dataset : 69.75 KiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'test' 356
  • Struktur fitur :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
hipotesa Teks rangkaian
idx Tensor int32
label LabelKelas int64
premis Teks rangkaian
  • Kutipan :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.