wikihow

  • คำอธิบาย :

วิกิฮาวเป็นชุดข้อมูลขนาดใหญ่ชุดใหม่ที่ใช้ฐานความรู้ออนไลน์ของวิกิฮาว ( http://www.wikihow.com/ )

มีฟีเจอร์สองอย่าง: - ข้อความ: วิกิฮาวตอบข้อความ - หัวเรื่อง: ขีดเส้นหนาเป็นสรุป

มีสองเวอร์ชันที่แยกจากกัน: - ทั้งหมด: ประกอบด้วยการต่อย่อหน้าทั้งหมดเป็นบทความและบรรทัดที่เป็นตัวหนาเป็นบทสรุปอ้างอิง - กันยายน: ประกอบด้วยแต่ละย่อหน้าและบทสรุป

ดาวน์โหลด "wikihowAll.csv" และ "wikihowSep.csv" จาก https://github.com/mahnazkoupaee/WikiHow-Dataset และวางไว้ในโฟลเดอร์คู่มือ https://www.tensorflow.org/datasets/api_docs/python/tfds/ ผู้เขียน ดาวน์โหลด/ดาวน์โหลด Config Train/ตรวจสอบความถูกต้อง/ทดสอบ การประมวลผลล่วงหน้าใช้เพื่อลบบทความสั้นๆ (ความยาวบทคัดย่อ < 0.75 ความยาวบทความ) และล้างเครื่องหมายจุลภาคเพิ่มเติม

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://github.com/mahnazkoupaee/WikiHow-Dataset

  • รหัสที่มา : tfds.summarization.Wikihow

  • รุ่น :

    • 1.2.0 (ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
  • ขนาดการดาวน์โหลด : 5.21 MiB

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    ลิงก์ไปยังไฟล์อยู่ที่ https://github.com/mahnazkoupaee/WikiHow-Dataset โปรดดาวน์โหลดทั้ง wikihowAll.csv และ wikihowSep.csv

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'headline')

  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

วิกิฮาว/ทั้งหมด (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : ใช้การต่อย่อหน้าทั้งหมดเป็นบทความและบรรทัดที่เป็นตัวหนาเป็นบทสรุปอ้างอิง

  • ขนาดชุดข้อมูล : 531.56 MiB

  • แยก :

แยก ตัวอย่าง
'test' 5,577
'train' 157,252
'validation' 5,599
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
พาดหัว ข้อความ สตริง
ข้อความ ข้อความ สตริง
ชื่อ ข้อความ สตริง

วิกิฮาว/ก.ย

  • คำอธิบาย การกำหนดค่า : ใช้แต่ละย่อหน้าและบทสรุป

  • ขนาดชุดข้อมูล : 1.07 GiB

  • แยก :

แยก ตัวอย่าง
'test' 37,800
'train' 1,060,732
'validation' 37,932
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
พาดหัว ข้อความ สตริง
ภาพรวม ข้อความ สตริง
ส่วนฉลาก ข้อความ สตริง
ข้อความ ข้อความ สตริง
ชื่อ ข้อความ สตริง