- คำอธิบาย :
ชุดข้อมูลการสัมภาษณ์สื่อขนาดใหญ่นี้มีการถอดเสียง 463.6K พร้อมบทสรุปเชิงนามธรรม ซึ่งรวบรวมจากการถอดเสียงการสัมภาษณ์และภาพรวม / คำอธิบายหัวข้อจาก NPR และ CNN
โปรดจำกัดการใช้ชุดข้อมูลนี้เพื่อการวิจัยเท่านั้น
และโปรดอ้างอิงเอกสารของเรา: MediaSum: ชุดข้อมูลสัมภาษณ์สื่อขนาดใหญ่สำหรับการสรุปบทสนทนา
จริยธรรม
เราใช้เฉพาะข้อมูลการถอดเสียงที่เปิดเผยต่อสาธารณะจากแหล่งสื่อต่างๆ และปฏิบัติตามแนวทางเพื่อวัตถุประสงค์ในการวิจัยเท่านั้น
เนื่องจากสื่อและแขกรับเชิญอาจมีมุมมองที่ลำเอียง การถอดเสียงและบทสรุปจึงน่าจะมีสิ่งเหล่านี้อยู่ด้วย เนื้อหาของการถอดเสียงและบทสรุปสะท้อนถึงมุมมองของสื่อและแขกเท่านั้น และควรดูอย่างมีวิจารณญาณ
หน้าแรก : https://github.com/zcgzcgzcg1/MediaSum
รหัสที่มา :
tfds.datasets.media_sum.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
Unknown size
ขนาดชุดข้อมูล :
4.11 GiB
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน
download_config.manual_dir
(ค่าเริ่มต้นเป็น~/tensorflow_datasets/downloads/manual/
):
manual_dir ควรมีไฟล์:- news_dialogue.json
- train_val_test_split.json
สามารถดาวน์โหลดและแตกไฟล์ได้จากหน้า GitHub ของชุดข้อมูล: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 10,000 |
'train' | 443,596 |
'val' | 10,000 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
วันที่ | ข้อความ | สตริง | ||
รหัส | ข้อความ | สตริง | ||
โปรแกรม | ข้อความ | สตริง | ||
ลำโพง | ลำดับ (ข้อความ) | (ไม่มี,) | สตริง | |
สรุป | ข้อความ | สตริง | ||
URL | ข้อความ | สตริง | ||
ที่สุด | ลำดับ (ข้อความ) | (ไม่มี,) | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('utt', 'summary')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}