- Descriptif :
ASSET est un ensemble de données permettant d'évaluer les systèmes de simplification de phrases avec plusieurs transformations de réécriture, comme décrit dans "ASSET : un ensemble de données pour le réglage et l'évaluation de modèles de simplification de phrases avec plusieurs transformations de réécriture". Le corpus est composé de 2000 phrases de validation et de 359 phrases originales de test qui ont chacune été simplifiées 10 fois par différents annotateurs. Le corpus contient également des jugements humains sur la préservation du sens, la fluidité et la simplicité des résultats de plusieurs systèmes automatiques de simplification de texte.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/facebookresearch/asset
Code source :
tfds.datasets.asset.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
3.47 MiB
Mise en cache automatique ( documentation ): Oui
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
atout/simplification (config par défaut)
Description de la configuration : Un ensemble de phrases originales alignées avec 10 simplifications possibles pour chacune.
Taille du jeu de données :
2.64 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 359 |
'validation' | 2 000 |
- Structure des fonctionnalités :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
original | Texte | chaîne de caractères | ||
simplifications | Séquence (texte) | (Aucun,) | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
atout/notations
Description de la configuration : Évaluations humaines de la simplification du texte produit automatiquement.
Taille du jeu de données :
1.44 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'full' | 4 500 |
- Structure des fonctionnalités :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
aspect | Étiquette de classe | int64 | ||
original | Texte | chaîne de caractères | ||
original_sentence_id | Tenseur | int32 | ||
évaluation | Tenseur | int32 | ||
simplification | Texte | chaîne de caractères | ||
worker_id | Tenseur | int32 |
- Exemples ( tfds.as_dataframe ):