ai2_arc_with_ir

Deskripsi :

Kumpulan data baru dari 7.787 pertanyaan sains pilihan ganda tingkat sekolah dasar asli, dikumpulkan untuk mendorong penelitian dalam menjawab pertanyaan tingkat lanjut. Dataset dipartisi menjadi Kumpulan Tantangan dan Kumpulan Mudah, di mana yang pertama hanya berisi pertanyaan yang dijawab salah oleh algoritme berbasis pengambilan dan algoritme kejadian bersama kata. Kami juga menyertakan kumpulan lebih dari 14 juta kalimat sains yang relevan dengan tugas tersebut, dan penerapan tiga model dasar saraf untuk kumpulan data ini. Kami menjadikan ARC sebagai tantangan bagi komunitas.

Dibandingkan dengan kumpulan data asli, ini menambahkan kalimat konteks yang diperoleh melalui pencarian informasi dengan cara yang sama seperti UnifiedQA (lihat: https://arxiv.org/abs/2005.00700 ).

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://allenei.org/data/arc
Kode sumber : tfds.datasets.ai2_arc_with_ir.Builder
Versi :
- 1.0.0 (default): Tidak ada catatan rilis.
Ukuran unduhan : 3.68 MiB
Di-cache otomatis ( dokumentasi ): Ya
Struktur fitur :

FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'choices': Sequence({
        'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
        'text': Text(shape=(), dtype=string),
    }),
    'id': Text(shape=(), dtype=string),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
kunci jawaban	LabelKelas	int64
pilihan	Urutan
pilihan/label	LabelKelas	int64
pilihan/teks	Teks	rangkaian
Indo	Teks	rangkaian
gugus kalimat	Teks	rangkaian
pertanyaan	Teks	rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@article{allenai:arc,
      author    = {Peter Clark  and Isaac Cowhey and Oren Etzioni and Tushar Khot and
                    Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
      title     = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
      journal   = {arXiv:1803.05457v1},
      year      = {2018},
}
@article{2020unifiedqa,
    title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
    author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
    journal={arXiv preprint},
    year={2020}
}

ai2_arc_with_ir/ARC-Challenge-IR (konfigurasi default)

Deskripsi konfigurasi : Kumpulan Tantangan dari 2590 pertanyaan "sulit" (pertanyaan yang gagal dijawab dengan benar oleh metode pengambilan dan kejadian bersama)
Ukuran dataset : 3.76 MiB
Perpecahan :

Membelah	Contoh
`'test'`	1.172
`'train'`	1.119
`'validation'`	299

Contoh ( tfds.as_dataframe ):

ai2_arc_with_ir/ARC-Easy-IR

Deskripsi konfigurasi : Kumpulan 5197 pertanyaan yang mudah untuk Tantangan ARC.
Ukuran dataset : 7.49 MiB
Perpecahan :

Membelah	Contoh
`'test'`	2.376
`'train'`	2.251
`'validation'`	570

Contoh ( tfds.as_dataframe ):

ai2_arc_with_ir Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

ai2_arc_with_ir/ARC-Challenge-IR (konfigurasi default)

ai2_arc_with_ir/ARC-Easy-IR

ai2_arc_with_ir