media_sum

คำอธิบาย :

ชุดข้อมูลการสัมภาษณ์สื่อขนาดใหญ่นี้มีการถอดเสียง 463.6K พร้อมบทสรุปเชิงนามธรรม ซึ่งรวบรวมจากการถอดเสียงการสัมภาษณ์และภาพรวม / คำอธิบายหัวข้อจาก NPR และ CNN

โปรดจำกัดการใช้ชุดข้อมูลนี้เพื่อการวิจัยเท่านั้น

และโปรดอ้างอิงเอกสารของเรา: MediaSum: ชุดข้อมูลสัมภาษณ์สื่อขนาดใหญ่สำหรับการสรุปบทสนทนา

จริยธรรม

เราใช้เฉพาะข้อมูลการถอดเสียงที่เปิดเผยต่อสาธารณะจากแหล่งสื่อต่างๆ และปฏิบัติตามแนวทางเพื่อวัตถุประสงค์ในการวิจัยเท่านั้น

เนื่องจากสื่อและแขกรับเชิญอาจมีมุมมองที่ลำเอียง การถอดเสียงและบทสรุปจึงน่าจะมีสิ่งเหล่านี้อยู่ด้วย เนื้อหาของการถอดเสียงและบทสรุปสะท้อนถึงมุมมองของสื่อและแขกเท่านั้น และควรดูอย่างมีวิจารณญาณ

หน้าแรก : https://github.com/zcgzcgzcg1/MediaSum
รหัสที่มา : tfds.datasets.media_sum.Builder
รุ่น :
- 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
ขนาดการดาวน์โหลด : Unknown size
ขนาดชุดข้อมูล : 4.11 GiB
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
manual_dir ควรมีไฟล์:
- news_dialogue.json
- train_val_test_split.json

สามารถดาวน์โหลดและแตกไฟล์ได้จากหน้า GitHub ของชุดข้อมูล: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :

แยก	ตัวอย่าง
`'test'`	10,000
`'train'`	443,596
`'val'`	10,000

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
วันที่	ข้อความ		สตริง
รหัส	ข้อความ		สตริง
โปรแกรม	ข้อความ		สตริง
ลำโพง	ลำดับ (ข้อความ)	(ไม่มี,)	สตริง
สรุป	ข้อความ		สตริง
URL	ข้อความ		สตริง
ที่สุด	ลำดับ (ข้อความ)	(ไม่มี,)	สตริง

คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('utt', 'summary')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):

การอ้างอิง :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

media_sum จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

จริยธรรม

media_sum