media_sum

Deskripsi :

Kumpulan data wawancara media skala besar ini berisi transkrip 463,6K dengan ringkasan abstraktif, dikumpulkan dari transkrip wawancara dan gambaran umum / deskripsi topik dari NPR dan CNN.

Harap batasi penggunaan kumpulan data ini hanya untuk tujuan penelitian.

Dan tolong kutip makalah kami: MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization

Etika

Kami hanya menggunakan data transkrip yang tersedia untuk umum dari sumber media dan mematuhi pedoman tujuan penelitian mereka saja.

Karena media dan tamu mungkin memiliki pandangan yang bias, transkrip dan ringkasan kemungkinan besar akan memuatnya. Isi transkrip dan ringkasan hanya mencerminkan pandangan media dan tamu, dan harus dilihat dengan bijaksana.

Beranda : https://github.com/zcgzcgzcg1/MediaSum
Kode sumber : tfds.datasets.media_sum.Builder
Versi :
- 1.0.0 (default): Rilis awal.
Ukuran unduhan : Unknown size
Ukuran dataset : 4.11 GiB
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default ke ~/tensorflow_datasets/downloads/manual/ ):
manual_dir harus berisi file:
- news_dialogue.json
- train_val_test_split.json

File dapat diunduh dan diekstraksi dari halaman GitHub kumpulan data: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'test'`	10.000
`'train'`	443.596
`'val'`	10.000

Struktur fitur :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
tanggal	Teks		rangkaian
pengenal	Teks		rangkaian
program	Teks		rangkaian
pembicara	Urutan (Teks)	(Tidak ada,)	rangkaian
ringkasan	Teks		rangkaian
url	Teks		rangkaian
utt	Urutan (Teks)	(Tidak ada,)	rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): ('utt', 'summary')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):

Kutipan :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

media_sum Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Etika

media_sum