- คำอธิบาย :
วิกิฮาวเป็นชุดข้อมูลขนาดใหญ่ชุดใหม่ที่ใช้ฐานความรู้ออนไลน์ของวิกิฮาว ( http://www.wikihow.com/ )
มีฟีเจอร์สองอย่าง: - ข้อความ: วิกิฮาวตอบข้อความ - หัวเรื่อง: ขีดเส้นหนาเป็นสรุป
มีสองเวอร์ชันที่แยกจากกัน: - ทั้งหมด: ประกอบด้วยการต่อย่อหน้าทั้งหมดเป็นบทความและบรรทัดที่เป็นตัวหนาเป็นบทสรุปอ้างอิง - กันยายน: ประกอบด้วยแต่ละย่อหน้าและบทสรุป
ดาวน์โหลด "wikihowAll.csv" และ "wikihowSep.csv" จาก https://github.com/mahnazkoupaee/WikiHow-Dataset และวางไว้ในโฟลเดอร์คู่มือ https://www.tensorflow.org/datasets/api_docs/python/tfds/ ผู้เขียน ดาวน์โหลด/ดาวน์โหลด Config Train/ตรวจสอบความถูกต้อง/ทดสอบ การประมวลผลล่วงหน้าใช้เพื่อลบบทความสั้นๆ (ความยาวบทคัดย่อ < 0.75 ความยาวบทความ) และล้างเครื่องหมายจุลภาคเพิ่มเติม
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
รหัสที่มา :
tfds.summarization.Wikihow
รุ่น :
-
1.2.0
(ค่าเริ่มต้น): ไม่มีบันทึกประจำรุ่น
-
ขนาดการดาวน์โหลด :
5.21 MiB
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน
download_config.manual_dir
(ค่าเริ่มต้นเป็น~/tensorflow_datasets/downloads/manual/
):
ลิงก์ไปยังไฟล์อยู่ที่ https://github.com/mahnazkoupaee/WikiHow-Dataset โปรดดาวน์โหลดทั้ง wikihowAll.csv และ wikihowSep.csvแคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('text', 'headline')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
วิกิฮาว/ทั้งหมด (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า : ใช้การต่อย่อหน้าทั้งหมดเป็นบทความและบรรทัดที่เป็นตัวหนาเป็นบทสรุปอ้างอิง
ขนาดชุดข้อมูล :
531.56 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 5,577 |
'train' | 157,252 |
'validation' | 5,599 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
พาดหัว | ข้อความ | สตริง | ||
ข้อความ | ข้อความ | สตริง | ||
ชื่อ | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
วิกิฮาว/ก.ย
คำอธิบาย การกำหนดค่า : ใช้แต่ละย่อหน้าและบทสรุป
ขนาดชุดข้อมูล :
1.07 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 37,800 |
'train' | 1,060,732 |
'validation' | 37,932 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
พาดหัว | ข้อความ | สตริง | ||
ภาพรวม | ข้อความ | สตริง | ||
ส่วนฉลาก | ข้อความ | สตริง | ||
ข้อความ | ข้อความ | สตริง | ||
ชื่อ | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):