- Deskripsi :
WikiHow adalah kumpulan data skala besar baru yang menggunakan basis pengetahuan online WikiHow ( http://www.wikihow.com/ ).
Ada dua fitur: - teks: wikihow menjawab teks. - headline: garis tebal sebagai ringkasan.
Ada dua versi terpisah: - semua: terdiri dari rangkaian semua paragraf sebagai artikel dan garis tebal sebagai ringkasan referensi. - sep: terdiri dari setiap paragraf dan ringkasannya.
Unduh "wikihowAll.csv" dan "wikihowSep.csv" dari https://github.com/mahnazkoupaee/WikiHow-Dataset dan letakkan di folder manual https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig Train/validasi/test split disediakan oleh penulis. Preprocessing diterapkan untuk menghapus artikel pendek (panjang abstrak < 0,75 panjang artikel) dan membersihkan koma ekstra.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber :
tfds.summarization.Wikihow
Versi :
-
1.2.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
5.21 MiB
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):
Tautan ke file dapat ditemukan di https://github.com/mahnazkoupaee/WikiHow-Dataset Silakan unduh wikihowAll.csv dan wikihowSep.csv.Di-cache otomatis ( dokumentasi ): Tidak
Kunci yang diawasi (Lihat
as_supervised
doc ):('text', 'headline')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (konfigurasi default)
Deskripsi konfigurasi : Gunakan rangkaian semua paragraf sebagai artikel dan garis tebal sebagai ringkasan referensi
Ukuran dataset :
531.56 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 5.577 |
'train' | 157.252 |
'validation' | 5.599 |
- Struktur fitur :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
judul | Teks | rangkaian | ||
teks | Teks | rangkaian | ||
judul | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):
wikihow/sep
Deskripsi konfigurasi : gunakan setiap paragraf dan ringkasannya.
Ukuran dataset :
1.07 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 37.800 |
'train' | 1.060.732 |
'validation' | 37.932 |
- Struktur fitur :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
judul | Teks | rangkaian | ||
gambaran | Teks | rangkaian | ||
labelbagian | Teks | rangkaian | ||
teks | Teks | rangkaian | ||
judul | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):