- תיאור :
WikiAuto מספקת קבוצה של משפטים מיושרים מויקיפדיה האנגלית ומוויקיפדיה האנגלית הפשוטה כמשאב לאימון מערכות פישוט משפטים. המחברים רכשו תחילה קבוצה של יישור ידני בין משפטים בתת-קבוצה של ויקיפדיה האנגלית הפשוטה והגרסאות המתאימות שלהם בוויקיפדיה האנגלית (זה מתאים לתצורה manual
), ולאחר מכן אימנו מערכת CRF עצבית לחזות יישורים אלה. המודל המאומן יושם לאחר מכן על המאמרים האחרים בוויקיפדיה האנגלית הפשוטה עם מקבילה באנגלית כדי ליצור קורפוס גדול יותר של משפטים מיושרים (המקביל לתצורות auto
, auto_acl
, auto_full_no_split
ו- auto_full_with_split
כאן).
דף הבית : https://github.com/chaojiang06/wiki-auto
קוד מקור :
tfds.text_simplification.wiki_auto.WikiAuto
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manual (תצורת ברירת המחדל)
תיאור תצורה : קבוצה של 10K צמדי משפטים של ויקיפדיה מיושרים על ידי עובדי המונים.
גודל הורדה :
53.47 MiB
גודל ערכת נתונים :
76.87 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'dev' | 73,249 |
'test' | 118,074 |
- מבנה תכונה :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
ציון GLEU | מוֹתֵחַ | לצוף64 | ||
alignment_label | ClassLabel | int64 | ||
משפט_רגיל | טֶקסט | חוּט | ||
מזהה_משפט_רגיל | טֶקסט | חוּט | ||
משפט פשוט | טֶקסט | חוּט | ||
פשוט_משפט_מזהה | טֶקסט | חוּט |
- דוגמאות ( tfds.as_dataframe ):
wiki_auto/auto_acl
תיאור תצורה : צמדי משפטים מיושרים לאימון מערכת ACL2020.
גודל הורדה :
112.60 MiB
גודל ערכת נתונים:
138.83 MiB
שמור אוטומטי במטמון ( תיעוד ): רק כאשר
shuffle_files=False
(מלא)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'full' | 488,332 |
- מבנה תכונה :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
משפט_רגיל | טֶקסט | חוּט | ||
משפט פשוט | טֶקסט | חוּט |
- דוגמאות ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
תיאור תצורה : כל צמדי המשפטים המיושרים אוטומטית ללא פיצול משפטים.
גודל הורדה :
135.02 MiB
גודל מערך נתונים :
166.78 MiB
שמור אוטומטי במטמון ( תיעוד ): רק כאשר
shuffle_files=False
(מלא)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'full' | 591,994 |
- מבנה תכונה :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
משפט_רגיל | טֶקסט | חוּט | ||
משפט פשוט | טֶקסט | חוּט |
- דוגמאות ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
תיאור תצורה : כל צמדי המשפטים המיושרים אוטומטית עם פיצול משפטים.
גודל הורדה :
115.09 MiB
גודל ערכת נתונים:
141.20 MiB
שמור אוטומטי במטמון ( תיעוד ): רק כאשר
shuffle_files=False
(מלא)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'full' | 483,801 |
- מבנה תכונה :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
משפט_רגיל | טֶקסט | חוּט | ||
משפט פשוט | טֶקסט | חוּט |
- דוגמאות ( tfds.as_dataframe ):
wiki_auto/auto
תיאור תצורה : קבוצה גדולה של צמדי משפטים מיושרים אוטומטית.
גודל הורדה :
2.01 GiB
גודל מערך נתונים :
1.76 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'part_1' | 125,059 |
'part_2' | 13,036 |
- מבנה תכונה :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
example_id | טֶקסט | חוּט | ||
נוֹרמָלִי | FeaturesDict | |||
normal/normal_artikel_content | סדר פעולות | |||
רגיל/רגיל_תוכן_מאמר/משפט_רגיל | טֶקסט | חוּט | ||
normal/normal_article_content/normal_sentence_id | טֶקסט | חוּט | ||
מזהה_מאמר_רגיל/רגיל | מוֹתֵחַ | int32 | ||
normal/normal_artikel_title | טֶקסט | חוּט | ||
normal/normal_article_url | טֶקסט | חוּט | ||
יישור_פסקה | סדר פעולות | |||
paragraph_alignment/normal_paragraph_id | טֶקסט | חוּט | ||
paragraph_alignment/simple_paragraph_id | טֶקסט | חוּט | ||
יישור_משפט | סדר פעולות | |||
משפט_יישור/מזהה_משפט רגיל | טֶקסט | חוּט | ||
משפט_יישור/מזהה_משפט פשוט | טֶקסט | חוּט | ||
פָּשׁוּט | FeaturesDict | |||
תוכן_פשוט/פשוט_מאמר | סדר פעולות | |||
פשוט/פשוט_תוכן_מאמר/משפט_פשוט | טֶקסט | חוּט | ||
simple/simple_article_content/simple_sentence_id | טֶקסט | חוּט | ||
פשוט/מזהה_מאמר_פשוט | מוֹתֵחַ | int32 | ||
פשוט/פשוט_כותרת_מאמר | טֶקסט | חוּט | ||
פשוט/פשוט_מאמר_url | טֶקסט | חוּט |
- דוגמאות ( tfds.as_dataframe ):