- คำอธิบาย :
SAMsum Corpus มีบทสนทนาการแชทมากกว่า 16,000 รายการพร้อมคำอธิบายประกอบแบบสรุปด้วยตนเอง
มีสองคุณสมบัติ:
- บทสนทนา: ข้อความของบทสนทนา
- สรุป: สรุปเป็นลายลักษณ์อักษรของบทสนทนา
รหัส: รหัสของตัวอย่าง
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
รหัสแหล่งที่มา :
tfds.datasets.samsum.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
ขนาดการดาวน์โหลด :
Unknown size
ขนาดชุดข้อมูล :
10.71 MiB
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน
download_config.manual_dir
(ค่าเริ่มต้นเป็น~/tensorflow_datasets/downloads/manual/
):
ดาวน์โหลด https://arxiv.org/src/1911.12237v2/anc/corpus.7z ขยายและวาง train.json, val.json และ test.json ในโฟลเดอร์คู่มือแคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 819 |
'train' | 14,732 |
'validation' | 818 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
บทสนทนา | ข้อความ | สตริง | ||
รหัส | ข้อความ | สตริง | ||
สรุป | ข้อความ | สตริง |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('dialogue', 'summary')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ):
- การอ้างอิง :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}