- Deskripsi :
Kumpulan data wawancara media skala besar ini berisi transkrip 463,6K dengan ringkasan abstraktif, dikumpulkan dari transkrip wawancara dan gambaran umum / deskripsi topik dari NPR dan CNN.
Harap batasi penggunaan kumpulan data ini hanya untuk tujuan penelitian.
Dan tolong kutip makalah kami: MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization
Etika
Kami hanya menggunakan data transkrip yang tersedia untuk umum dari sumber media dan mematuhi pedoman tujuan penelitian mereka saja.
Karena media dan tamu mungkin memiliki pandangan yang bias, transkrip dan ringkasan kemungkinan besar akan memuatnya. Isi transkrip dan ringkasan hanya mencerminkan pandangan media dan tamu, dan harus dilihat dengan bijaksana.
Beranda : https://github.com/zcgzcgzcg1/MediaSum
Kode sumber :
tfds.datasets.media_sum.Builder
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
Unknown size
Ukuran dataset :
4.11 GiB
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):
manual_dir harus berisi file:- news_dialogue.json
- train_val_test_split.json
File dapat diunduh dan diekstraksi dari halaman GitHub kumpulan data: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 10.000 |
'train' | 443.596 |
'val' | 10.000 |
- Struktur fitur :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
tanggal | Teks | rangkaian | ||
pengenal | Teks | rangkaian | ||
program | Teks | rangkaian | ||
pembicara | Urutan (Teks) | (Tidak ada,) | rangkaian | |
ringkasan | Teks | rangkaian | ||
url | Teks | rangkaian | ||
utt | Urutan (Teks) | (Tidak ada,) | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('utt', 'summary')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}