wiki_auto

  • תיאור :

WikiAuto מספקת קבוצה של משפטים מיושרים מויקיפדיה האנגלית ומוויקיפדיה האנגלית הפשוטה כמשאב לאימון מערכות פישוט משפטים. המחברים רכשו תחילה קבוצה של יישור ידני בין משפטים בתת-קבוצה של ויקיפדיה האנגלית הפשוטה והגרסאות המתאימות שלהם בוויקיפדיה האנגלית (זה מתאים לתצורה manual ), ולאחר מכן אימנו מערכת CRF עצבית לחזות יישורים אלה. המודל המאומן יושם לאחר מכן על המאמרים האחרים בוויקיפדיה האנגלית הפשוטה עם מקבילה באנגלית כדי ליצור קורפוס גדול יותר של משפטים מיושרים (המקביל לתצורות auto , auto_acl , auto_full_no_split ו- auto_full_with_split כאן).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (תצורת ברירת המחדל)

  • תיאור תצורה : קבוצה של 10K צמדי משפטים של ויקיפדיה מיושרים על ידי עובדי המונים.

  • גודל הורדה : 53.47 MiB

  • גודל ערכת נתונים : 76.87 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'dev' 73,249
'test' 118,074
  • מבנה תכונה :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
ציון GLEU מוֹתֵחַ לצוף64
alignment_label ClassLabel int64
משפט_רגיל טֶקסט חוּט
מזהה_משפט_רגיל טֶקסט חוּט
משפט פשוט טֶקסט חוּט
פשוט_משפט_מזהה טֶקסט חוּט

wiki_auto/auto_acl

  • תיאור תצורה : צמדי משפטים מיושרים לאימון מערכת ACL2020.

  • גודל הורדה : 112.60 MiB

  • גודל ערכת נתונים: 138.83 MiB

  • שמור אוטומטי במטמון ( תיעוד ): רק כאשר shuffle_files=False (מלא)

  • פיצולים :

לְפַצֵל דוגמאות
'full' 488,332
  • מבנה תכונה :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
משפט_רגיל טֶקסט חוּט
משפט פשוט טֶקסט חוּט

wiki_auto/auto_full_no_split

  • תיאור תצורה : כל צמדי המשפטים המיושרים אוטומטית ללא פיצול משפטים.

  • גודל הורדה : 135.02 MiB

  • גודל מערך נתונים : 166.78 MiB

  • שמור אוטומטי במטמון ( תיעוד ): רק כאשר shuffle_files=False (מלא)

  • פיצולים :

לְפַצֵל דוגמאות
'full' 591,994
  • מבנה תכונה :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
משפט_רגיל טֶקסט חוּט
משפט פשוט טֶקסט חוּט

wiki_auto/auto_full_with_split

  • תיאור תצורה : כל צמדי המשפטים המיושרים אוטומטית עם פיצול משפטים.

  • גודל הורדה : 115.09 MiB

  • גודל ערכת נתונים: 141.20 MiB

  • שמור אוטומטי במטמון ( תיעוד ): רק כאשר shuffle_files=False (מלא)

  • פיצולים :

לְפַצֵל דוגמאות
'full' 483,801
  • מבנה תכונה :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
משפט_רגיל טֶקסט חוּט
משפט פשוט טֶקסט חוּט

wiki_auto/auto

  • תיאור תצורה : קבוצה גדולה של צמדי משפטים מיושרים אוטומטית.

  • גודל הורדה : 2.01 GiB

  • גודל מערך נתונים : 1.76 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'part_1' 125,059
'part_2' 13,036
  • מבנה תכונה :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
example_id טֶקסט חוּט
נוֹרמָלִי FeaturesDict
normal/normal_artikel_content סדר פעולות
רגיל/רגיל_תוכן_מאמר/משפט_רגיל טֶקסט חוּט
normal/normal_article_content/normal_sentence_id טֶקסט חוּט
מזהה_מאמר_רגיל/רגיל מוֹתֵחַ int32
normal/normal_artikel_title טֶקסט חוּט
normal/normal_article_url טֶקסט חוּט
יישור_פסקה סדר פעולות
paragraph_alignment/normal_paragraph_id טֶקסט חוּט
paragraph_alignment/simple_paragraph_id טֶקסט חוּט
יישור_משפט סדר פעולות
משפט_יישור/מזהה_משפט רגיל טֶקסט חוּט
משפט_יישור/מזהה_משפט פשוט טֶקסט חוּט
פָּשׁוּט FeaturesDict
תוכן_פשוט/פשוט_מאמר סדר פעולות
פשוט/פשוט_תוכן_מאמר/משפט_פשוט טֶקסט חוּט
simple/simple_article_content/simple_sentence_id טֶקסט חוּט
פשוט/מזהה_מאמר_פשוט מוֹתֵחַ int32
פשוט/פשוט_כותרת_מאמר טֶקסט חוּט
פשוט/פשוט_מאמר_url טֶקסט חוּט