ห้องข่าว

  • คำอธิบาย :

NEWSROOM เป็นชุดข้อมูลขนาดใหญ่สำหรับการฝึกอบรมและประเมินระบบการสรุปผล ประกอบด้วยบทความและบทสรุปจำนวน 1.3 ล้านบทความที่เขียนโดยนักเขียนและบรรณาธิการในห้องข่าวของสื่อสิ่งพิมพ์หลัก 38 ฉบับ

คุณลักษณะชุดข้อมูลประกอบด้วย:

  • ข้อความ: ป้อนข้อความข่าว
  • สรุป: สรุปสำหรับข่าว

และคุณสมบัติเพิ่มเติม:

  • หัวเรื่อง : หัวข่าว.
  • url: url ของข่าว.
  • วันที่: วันที่ของบทความ
  • ความหนาแน่น: ความหนาแน่นของการสกัด
  • ความคุ้มครอง: ความคุ้มครองสารสกัด
  • การบีบอัด: อัตราส่วนการบีบอัด
  • density_bin: ต่ำ ปานกลาง สูง
  • coverage_bin: สกัด, นามธรรม
  • compression_bin: ต่ำ กลาง สูง

ชุดข้อมูลนี้สามารถดาวน์โหลดได้ตามคำขอ เปิดเครื่องรูดเนื้อหาทั้งหมด "train.jsonl, dev.jsonl, test.jsonl" ไปยังโฟลเดอร์ tfds

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://summari.es

  • รหัสแหล่งที่มา : tfds.datasets.newsroom.Builder

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
  • ขนาดการดาวน์โหลด : Unknown size

  • ขนาดชุดข้อมูล : 5.13 GiB

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    คุณควรดาวน์โหลดชุดข้อมูลจาก https://summari.es/download/ หน้าเว็บต้องมีการลงทะเบียน หลังจากดาวน์โหลด โปรดใส่ไฟล์ dev.jsonl, test.jsonl และ train.jsonl ใน manual_dir

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'test' 108,862
'train' 995,041
'validation' 108,837
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
การบีบอัด เทนเซอร์ ลอย32
การบีบอัด_bin ข้อความ สตริง
ครอบคลุม เทนเซอร์ ลอย32
ความคุ้มครอง_bin ข้อความ สตริง
วันที่ ข้อความ สตริง
ความหนาแน่น เทนเซอร์ ลอย32
ความหนาแน่น_ถัง ข้อความ สตริง
สรุป ข้อความ สตริง
ข้อความ ข้อความ สตริง
ชื่อ ข้อความ สตริง
URL ข้อความ สตริง
  • การอ้างอิง :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}