- คำอธิบาย :
NEWSROOM เป็นชุดข้อมูลขนาดใหญ่สำหรับการฝึกอบรมและประเมินระบบการสรุปผล ประกอบด้วยบทความและบทสรุปจำนวน 1.3 ล้านบทความที่เขียนโดยนักเขียนและบรรณาธิการในห้องข่าวของสื่อสิ่งพิมพ์หลัก 38 ฉบับ
คุณลักษณะชุดข้อมูลประกอบด้วย:
- ข้อความ: ป้อนข้อความข่าว
- สรุป: สรุปสำหรับข่าว
และคุณสมบัติเพิ่มเติม:
- หัวเรื่อง : หัวข่าว.
- url: url ของข่าว.
- วันที่: วันที่ของบทความ
- ความหนาแน่น: ความหนาแน่นของการสกัด
- ความคุ้มครอง: ความคุ้มครองสารสกัด
- การบีบอัด: อัตราส่วนการบีบอัด
- density_bin: ต่ำ ปานกลาง สูง
- coverage_bin: สกัด, นามธรรม
- compression_bin: ต่ำ กลาง สูง
ชุดข้อมูลนี้สามารถดาวน์โหลดได้ตามคำขอ เปิดเครื่องรูดเนื้อหาทั้งหมด "train.jsonl, dev.jsonl, test.jsonl" ไปยังโฟลเดอร์ tfds
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://summari.es
รหัสแหล่งที่มา :
tfds.datasets.newsroom.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
ขนาดการดาวน์โหลด :
Unknown size
ขนาดชุดข้อมูล :
5.13 GiB
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน
download_config.manual_dir
(ค่าเริ่มต้นเป็น~/tensorflow_datasets/downloads/manual/
):
คุณควรดาวน์โหลดชุดข้อมูลจาก https://summari.es/download/ หน้าเว็บต้องมีการลงทะเบียน หลังจากดาวน์โหลด โปรดใส่ไฟล์ dev.jsonl, test.jsonl และ train.jsonl ใน manual_dirแคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 108,862 |
'train' | 995,041 |
'validation' | 108,837 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
การบีบอัด | เทนเซอร์ | ลอย32 | ||
การบีบอัด_bin | ข้อความ | สตริง | ||
ครอบคลุม | เทนเซอร์ | ลอย32 | ||
ความคุ้มครอง_bin | ข้อความ | สตริง | ||
วันที่ | ข้อความ | สตริง | ||
ความหนาแน่น | เทนเซอร์ | ลอย32 | ||
ความหนาแน่น_ถัง | ข้อความ | สตริง | ||
สรุป | ข้อความ | สตริง | ||
ข้อความ | ข้อความ | สตริง | ||
ชื่อ | ข้อความ | สตริง | ||
URL | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('text', 'summary')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}