media_sum

  • คำอธิบาย :

ชุดข้อมูลการสัมภาษณ์สื่อขนาดใหญ่นี้มีการถอดเสียง 463.6K พร้อมบทสรุปเชิงนามธรรม ซึ่งรวบรวมจากการถอดเสียงการสัมภาษณ์และภาพรวม / คำอธิบายหัวข้อจาก NPR และ CNN

โปรดจำกัดการใช้ชุดข้อมูลนี้เพื่อการวิจัยเท่านั้น

และโปรดอ้างอิงเอกสารของเรา: MediaSum: ชุดข้อมูลสัมภาษณ์สื่อขนาดใหญ่สำหรับการสรุปบทสนทนา

จริยธรรม

เราใช้เฉพาะข้อมูลการถอดเสียงที่เปิดเผยต่อสาธารณะจากแหล่งสื่อต่างๆ และปฏิบัติตามแนวทางเพื่อวัตถุประสงค์ในการวิจัยเท่านั้น

เนื่องจากสื่อและแขกรับเชิญอาจมีมุมมองที่ลำเอียง การถอดเสียงและบทสรุปจึงน่าจะมีสิ่งเหล่านี้อยู่ด้วย เนื้อหาของการถอดเสียงและบทสรุปสะท้อนถึงมุมมองของสื่อและแขกเท่านั้น และควรดูอย่างมีวิจารณญาณ

  • หน้าแรก : https://github.com/zcgzcgzcg1/MediaSum

  • รหัสที่มา : tfds.datasets.media_sum.Builder

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
  • ขนาดการดาวน์โหลด : Unknown size

  • ขนาดชุดข้อมูล : 4.11 GiB

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir ควรมีไฟล์:

    • news_dialogue.json
    • train_val_test_split.json

สามารถดาวน์โหลดและแตกไฟล์ได้จากหน้า GitHub ของชุดข้อมูล: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

แยก ตัวอย่าง
'test' 10,000
'train' 443,596
'val' 10,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
วันที่ ข้อความ สตริง
รหัส ข้อความ สตริง
โปรแกรม ข้อความ สตริง
ลำโพง ลำดับ (ข้อความ) (ไม่มี,) สตริง
สรุป ข้อความ สตริง
URL ข้อความ สตริง
ที่สุด ลำดับ (ข้อความ) (ไม่มี,) สตริง
  • การอ้างอิง :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}