élément

Descriptif :

ASSET est un ensemble de données permettant d'évaluer les systèmes de simplification de phrases avec plusieurs transformations de réécriture, comme décrit dans "ASSET : un ensemble de données pour le réglage et l'évaluation de modèles de simplification de phrases avec plusieurs transformations de réécriture". Le corpus est composé de 2000 phrases de validation et de 359 phrases originales de test qui ont chacune été simplifiées 10 fois par différents annotateurs. Le corpus contient également des jugements humains sur la préservation du sens, la fluidité et la simplicité des résultats de plusieurs systèmes automatiques de simplification de texte.

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/facebookresearch/asset
Code source : tfds.datasets.asset.Builder
Versions :
- 1.0.0 (par défaut) : version initiale.
Taille du téléchargement : 3.47 MiB
Mise en cache automatique ( documentation ): Oui
Clés supervisées (Voir as_supervised doc ): None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

atout/simplification (config par défaut)

Description de la configuration : Un ensemble de phrases originales alignées avec 10 simplifications possibles pour chacune.
Taille du jeu de données : 2.64 MiB
Fractionnements :

Diviser	Exemples
`'test'`	359
`'validation'`	2 000

Structure des fonctionnalités :

FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
original	Texte		chaîne de caractères
simplifications	Séquence (texte)	(Aucun,)	chaîne de caractères

Exemples ( tfds.as_dataframe ):

atout/notations

Description de la configuration : Évaluations humaines de la simplification du texte produit automatiquement.
Taille du jeu de données : 1.44 MiB
Fractionnements :

Diviser	Exemples
`'full'`	4 500

Structure des fonctionnalités :

FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})

Documentation des fonctionnalités :

Caractéristique	Classer	Dtype
	FonctionnalitésDict
aspect	Étiquette de classe	int64
original	Texte	chaîne de caractères
original_sentence_id	Tenseur	int32
évaluation	Tenseur	int32
simplification	Texte	chaîne de caractères
worker_id	Tenseur	int32

Exemples ( tfds.as_dataframe ):

élément Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

atout/simplification (config par défaut)

atout/notations

élément