- Описание :
ASSET — это набор данных для оценки систем упрощения предложений с несколькими преобразованиями перезаписи, как описано в статье «ASSET: набор данных для настройки и оценки моделей упрощения предложений с несколькими преобразованиями перезаписи». Корпус состоит из 2000 проверочных и 359 тестовых исходных предложений, каждое из которых было упрощено в 10 раз разными аннотаторами. Корпус также содержит человеческие суждения о сохранении значения, беглости и простоте выходных данных нескольких систем автоматического упрощения текста.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/facebookresearch/asset
Исходный код :
tfds.datasets.asset.Builder
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
3.47 MiB
Автоматическое кэширование ( документация ): Да
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
актив/упрощение (конфигурация по умолчанию)
Описание конфига : набор оригинальных предложений, выровненных с 10 возможными упрощениями для каждого.
Размер набора данных :
2.64 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 359 |
'validation' | 2000 |
- Структура функции :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
оригинальный | Текст | нить | ||
упрощения | Последовательность (текст) | (Никто,) | нить |
- Примеры ( tfds.as_dataframe ):
актив/рейтинги
Описание конфигурации : человеческие оценки автоматически создаваемого упрощения текста.
Размер набора данных :
1.44 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'full' | 4500 |
- Структура функции :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
аспект | Метка класса | int64 | ||
оригинальный | Текст | нить | ||
original_sentence_id | Тензор | int32 | ||
рейтинг | Тензор | int32 | ||
упрощение | Текст | нить | ||
worker_id | Тензор | int32 |
- Примеры ( tfds.as_dataframe ):