- คำอธิบาย :
BookSum: ชุดข้อมูลสำหรับการสรุปเรื่องเล่าแบบยาว
ขณะนี้การใช้งานนี้รองรับเฉพาะหนังสือและบทสรุปของบทเท่านั้น
GitHub: https://github.com/salesforce/booksum
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://github.com/salesforce/booksum
รหัสที่มา :
tfds.datasets.booksum.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
Unknown size
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน
download_config.manual_dir
(ค่าเริ่มต้นเป็น~/tensorflow_datasets/downloads/manual/
):1) ไปที่ https://github.com/salesforce/booksum และเรียกใช้ขั้นตอนที่ 1-3 วางโปรเจ็
booksum
git ทั้งหมดในโฟลเดอร์ manual 2) ดาวน์โหลดหนังสือที่แยกเป็นบทจาก https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip แล้วคลายซิปไปที่โฟลเดอร์คู่มือ
โฟลเดอร์คู่มือควรมีไดเร็กทอรีต่อไปนี้:
- `booksum/`
- `all_chapterized_books/`
แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ
shuffle_files=False
(รถไฟ)โครงสร้างคุณลักษณะ :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
เอกสาร | ข้อความ | สตริง | ||
สรุป | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('document', 'summary')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
booksum/book (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า : การสรุประดับหนังสือ
ขนาดชุดข้อมูล :
208.81 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- ตัวอย่าง ( tfds.as_dataframe ):
booksum / บท
คำอธิบาย การกำหนดค่า: การสรุประดับบท
ขนาดชุดข้อมูล :
216.71 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 1,083 |
'train' | 6,524 |
'validation' | 891 |
- ตัวอย่าง ( tfds.as_dataframe ):