- Deskripsi :
Kumpulan data SciTail adalah kumpulan data persyaratan yang dibuat dari ujian sains pilihan ganda dan kalimat web. Setiap pertanyaan dan pilihan jawaban yang benar diubah menjadi pernyataan asertif untuk membentuk hipotesis. Pengambilan informasi digunakan untuk mendapatkan teks yang relevan dari korpus teks besar kalimat web, dan kalimat ini digunakan sebagai premis P. Anotasi pasangan premis-hipotesis tersebut adalah crowdsourced sebagai pendukung (entails) atau tidak (netral), agar untuk membuat kumpulan data SciTail. Dataset berisi 27.026 contoh dengan 10.101 contoh dengan label memerlukan dan 16.925 contoh dengan label netral.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://allenai.org/data/scitail
Kode sumber :
tfds.datasets.sci_tail.Builder
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
13.52 MiB
Ukuran dataset :
6.01 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 2.126 |
'train' | 23.097 |
'validation' | 1.304 |
- Struktur fitur :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
hipotesa | Teks | rangkaian | ||
label | LabelKelas | int64 | ||
premis | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{khot2018scitail,
title={Scitail: A textual entailment dataset from science question answering},
author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
year={2018}
}