wiki_auto

  • Описание :

WikiAuto предоставляет набор выровненных предложений из английской Википедии и простой английской Википедии в качестве ресурса для обучения систем упрощения предложений. Сначала авторы собрали набор ручных выравниваний между предложениями в подмножестве Simple English Wikipedia и их соответствующими версиями в английской Википедии (это соответствует manual конфигурации), а затем обучили нейронную CRF-систему прогнозировать эти выравнивания. Затем обученная модель была применена к другим статьям в Википедии на простом английском языке с английским аналогом для создания большего корпуса выровненных предложений (соответствующих конфигурациям auto , auto_acl , auto_full_no_split и auto_full_with_split здесь).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (конфигурация по умолчанию)

  • Описание конфигурации : набор из 10 тысяч пар предложений из Википедии, выровненных краудворкерами.

  • Размер загрузки : 53.47 MiB

  • Размер набора данных : 76.87 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'dev' 73 249
'test' 118 074
  • Структура функции :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
GLEU-оценка Тензор поплавок64
выравнивание_метка Метка класса int64
normal_sentence Текст нить
normal_sentence_id Текст нить
простое предложение Текст нить
simple_sentence_id Текст нить

wiki_auto/auto_acl

  • Описание конфигурации : пары предложений, выровненные для обучения системы ACL2020.

  • Размер загрузки : 112.60 MiB

  • Размер набора данных : 138.83 MiB .

  • Автокэширование ( документация ): только когда shuffle_files=False (полный)

  • Сплиты :

Расколоть Примеры
'full' 488 332
  • Структура функции :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
normal_sentence Текст нить
простое предложение Текст нить

wiki_auto/auto_full_no_split

  • Описание конфигурации : все автоматически выровненные пары предложений без разделения предложений.

  • Размер загрузки : 135.02 MiB

  • Размер набора данных : 166.78 MiB .

  • Автокэширование ( документация ): только когда shuffle_files=False (полный)

  • Сплиты :

Расколоть Примеры
'full' 591 994
  • Структура функции :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
normal_sentence Текст нить
простое предложение Текст нить

wiki_auto/auto_full_with_split

  • Описание конфигурации : все автоматически выровненные пары предложений с разделением предложений.

  • Размер загрузки : 115.09 MiB

  • Размер набора данных : 141.20 MiB .

  • Автокэширование ( документация ): только когда shuffle_files=False (полный)

  • Сплиты :

Расколоть Примеры
'full' 483 801
  • Структура функции :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
normal_sentence Текст нить
простое предложение Текст нить

wiki_auto/авто

  • Описание конфига : большой набор автоматически выровненных пар предложений.

  • Размер загрузки : 2.01 GiB

  • Размер набора данных : 1.76 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'part_1' 125 059
'part_2' 13 036
  • Структура функции :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
example_id Текст нить
обычный ОсобенностиDict
обычный/нормальный_содержимое_статьи Последовательность
обычный/нормальный_содержимое_статьи/нормальный_предложение Текст нить
нормальный/нормальный_содержимое_статьи/нормальный_идентификатор_предложения Текст нить
обычный/нормальный_идентификатор_статьи Тензор int32
обычный/нормальный_статья_название Текст нить
обычный/нормальный_адрес_статьи Текст нить
параграф_выравнивание Последовательность
paragraph_alignment/normal_paragraph_id Текст нить
paragraph_alignment/simple_paragraph_id Текст нить
предложение_выравнивание Последовательность
предложение_выравнивание/нормальное_предложение_идентификатор Текст нить
предложение_выравнивание/simple_sentence_id Текст нить
просто ОсобенностиDict
простой/простой_article_content Последовательность
простое/простое_содержимое_статьи/простое_предложение Текст нить
простой/simple_article_content/simple_sentence_id Текст нить
простой/simple_article_id Тензор int32
простой/простой_статья_название Текст нить
простой/простой_article_url Текст нить