- คำอธิบาย :
WikiAuto จัดทำชุดประโยคที่สอดคล้องกันจากวิกิพีเดียภาษาอังกฤษและวิกิพีเดียภาษาอังกฤษแบบง่ายเพื่อเป็นแหล่งข้อมูลในการฝึกอบรมระบบลดความซับซ้อนของประโยค ก่อนอื่น ผู้เขียนได้รวบรวมชุดของการจัดแนวด้วยตนเองระหว่างประโยคในชุดย่อยของวิกิพีเดียภาษาอังกฤษแบบธรรมดาและเวอร์ชันที่สอดคล้องกันในวิกิพีเดียภาษาอังกฤษ (ซึ่งสอดคล้องกับการกำหนดค่า manual
) จากนั้นจึงฝึกระบบ CRF ประสาทเพื่อทำนายการจัดแนวเหล่านี้ โมเดลที่ผ่านการฝึกอบรมแล้วถูกนำไปใช้กับบทความอื่นๆ ในวิกิพีเดียภาษาอังกฤษอย่างง่ายโดยใช้คู่ภาษาอังกฤษเพื่อสร้างคลังข้อมูลขนาดใหญ่ของประโยคที่สอดคล้องกัน (สอดคล้องกับ auto
, auto_acl
, auto_full_no_split
และ auto_full_with_split
configs ที่นี่)
หน้าแรก : https://github.com/chaojiang06/wiki-auto
รหัสแหล่งที่มา :
tfds.text_simplification.wiki_auto.WikiAuto
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manual (การกำหนดค่าเริ่มต้น)
คำอธิบาย การกำหนดค่า : ชุดของคู่ประโยควิกิพีเดีย 10K ที่จัดเรียงโดยฝูงชน
ขนาดการดาวน์โหลด :
53.47 MiB
ขนาดชุดข้อมูล :
76.87 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :
แยก | ตัวอย่าง |
---|---|
'dev' | 73,249 |
'test' | 118,074 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
คะแนน GLEU | เทนเซอร์ | float64 | ||
alignment_label | ป้ายกำกับคลาส | int64 | ||
normal_sentence | ข้อความ | สตริง | ||
normal_sentence_id | ข้อความ | สตริง | ||
Simple_sentence | ข้อความ | สตริง | ||
simple_sentence_id | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki_auto/auto_acl
คำอธิบาย การกำหนดค่า : จับคู่ประโยคเพื่อฝึกระบบ ACL2020
ขนาดการดาวน์โหลด :
112.60 MiB
ขนาดชุดข้อมูล :
138.83 MiB
แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ
shuffle_files=False
(เต็ม)แยก :
แยก | ตัวอย่าง |
---|---|
'full' | 488,332 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
normal_sentence | ข้อความ | สตริง | ||
Simple_sentence | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
คำอธิบาย การกำหนดค่า : คู่ประโยคที่จัดแนวโดยอัตโนมัติทั้งหมดโดยไม่มีการแยกประโยค
ขนาดการดาวน์โหลด :
135.02 MiB
ขนาดชุดข้อมูล :
166.78 MiB
แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ
shuffle_files=False
(เต็ม)แยก :
แยก | ตัวอย่าง |
---|---|
'full' | 591,994 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
normal_sentence | ข้อความ | สตริง | ||
Simple_sentence | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
คำอธิบาย การกำหนดค่า : ประโยคที่จัดแนวโดยอัตโนมัติทั้งหมดจะจับคู่กับการแยกประโยค
ขนาดการดาวน์โหลด :
115.09 MiB
ขนาดชุดข้อมูล :
141.20 MiB
แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ
shuffle_files=False
(เต็ม)แยก :
แยก | ตัวอย่าง |
---|---|
'full' | 483,801 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
normal_sentence | ข้อความ | สตริง | ||
Simple_sentence | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):
wiki_auto/อัตโนมัติ
คำอธิบาย การกำหนดค่า : คู่ประโยคที่จัดเรียงโดยอัตโนมัติจำนวนมาก
ขนาดการดาวน์โหลด :
2.01 GiB
ขนาดชุดข้อมูล :
1.76 GiB
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
แยก :
แยก | ตัวอย่าง |
---|---|
'part_1' | 125,059 |
'part_2' | 13,036 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
example_id | ข้อความ | สตริง | ||
ปกติ | คุณสมบัติDict | |||
ปกติ/ปกติ_บทความ_เนื้อหา | ลำดับ | |||
ปกติ/ปกติ_บทความ_เนื้อหา/ปกติ_ประโยค | ข้อความ | สตริง | ||
ปกติ/ปกติ_บทความ_เนื้อหา/ปกติ_ประโยค_id | ข้อความ | สตริง | ||
ปกติ/ปกติ_article_id | เทนเซอร์ | int32 | ||
ปกติ/normal_article_title | ข้อความ | สตริง | ||
ปกติ/ปกติ_article_url | ข้อความ | สตริง | ||
การจัดย่อหน้า | ลำดับ | |||
Paragraph_alignment/ปกติ_paragraph_id | ข้อความ | สตริง | ||
paragraph_alignment/simple_paragraph_id | ข้อความ | สตริง | ||
การจัดประโยค | ลำดับ | |||
Sentence_alignment/Normal_sentence_id | ข้อความ | สตริง | ||
Sentence_alignment/simple_sentence_id | ข้อความ | สตริง | ||
เรียบง่าย | คุณสมบัติDict | |||
ง่าย/simple_article_content | ลำดับ | |||
ง่าย/simple_article_content/simple_sentence | ข้อความ | สตริง | ||
ง่าย/simple_article_content/simple_sentence_id | ข้อความ | สตริง | ||
ง่าย/simple_article_id | เทนเซอร์ | int32 | ||
ง่าย/simple_article_title | ข้อความ | สตริง | ||
Simple/simple_article_url | ข้อความ | สตริง |
- ตัวอย่าง ( tfds.as_dataframe ):