media_sum

  • Deskripsi :

Kumpulan data wawancara media skala besar ini berisi transkrip 463,6K dengan ringkasan abstraktif, dikumpulkan dari transkrip wawancara dan gambaran umum / deskripsi topik dari NPR dan CNN.

Harap batasi penggunaan kumpulan data ini hanya untuk tujuan penelitian.

Dan tolong kutip makalah kami: MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization

Etika

Kami hanya menggunakan data transkrip yang tersedia untuk umum dari sumber media dan mematuhi pedoman tujuan penelitian mereka saja.

Karena media dan tamu mungkin memiliki pandangan yang bias, transkrip dan ringkasan kemungkinan besar akan memuatnya. Isi transkrip dan ringkasan hanya mencerminkan pandangan media dan tamu, dan harus dilihat dengan bijaksana.

  • Beranda : https://github.com/zcgzcgzcg1/MediaSum

  • Kode sumber : tfds.datasets.media_sum.Builder

  • Versi :

    • 1.0.0 (default): Rilis awal.
  • Ukuran unduhan : Unknown size

  • Ukuran dataset : 4.11 GiB

  • Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default ke ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir harus berisi file:

    • news_dialogue.json
    • train_val_test_split.json

File dapat diunduh dan diekstraksi dari halaman GitHub kumpulan data: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

Membelah Contoh
'test' 10.000
'train' 443.596
'val' 10.000
  • Struktur fitur :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
tanggal Teks rangkaian
pengenal Teks rangkaian
program Teks rangkaian
pembicara Urutan (Teks) (Tidak ada,) rangkaian
ringkasan Teks rangkaian
url Teks rangkaian
utt Urutan (Teks) (Tidak ada,) rangkaian
  • Kutipan :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}