ซัมซัม

  • คำอธิบาย :

SAMsum Corpus มีบทสนทนาการแชทมากกว่า 16,000 รายการพร้อมคำอธิบายประกอบแบบสรุปด้วยตนเอง

มีสองคุณสมบัติ:

  • บทสนทนา: ข้อความของบทสนทนา
  • สรุป: สรุปเป็นลายลักษณ์อักษรของบทสนทนา
  • รหัส: รหัสของตัวอย่าง

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • โฮมเพจ : https://arxiv.org/src/1911.12237v2/anc

  • รหัสแหล่งที่มา : tfds.datasets.samsum.Builder

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
  • ขนาดการดาวน์โหลด : Unknown size

  • ขนาดชุดข้อมูล : 10.71 MiB

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    ดาวน์โหลด https://arxiv.org/src/1911.12237v2/anc/corpus.7z ขยายและวาง train.json, val.json และ test.json ในโฟลเดอร์คู่มือ

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 819
'train' 14,732
'validation' 818
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
บทสนทนา ข้อความ สตริง
รหัส ข้อความ สตริง
สรุป ข้อความ สตริง
  • การอ้างอิง :
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}