- Descrizione :
ASSET è un set di dati per la valutazione dei sistemi di semplificazione delle frasi con più trasformazioni di riscrittura, come descritto in "ASSET: un set di dati per l'ottimizzazione e la valutazione dei modelli di semplificazione delle frasi con trasformazioni multiple di riscrittura". Il corpus è composto da 2000 frasi originali di validazione e 359 di prova, ognuna delle quali è stata semplificata 10 volte da diversi annotatori. Il corpus contiene anche giudizi umani sulla conservazione del significato, fluidità e semplicità per gli output di diversi sistemi automatici di semplificazione del testo.
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://github.com/facebookresearch/asset
Codice sorgente :
tfds.datasets.asset.Builder
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensione del download :
3.47 MiB
Auto-cache ( documentazione ): Sì
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
risorsa/semplificazione (configurazione predefinita)
Descrizione della configurazione : una serie di frasi originali allineate con 10 possibili semplificazioni per ognuna.
Dimensione del set di dati:
2.64 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 359 |
'validation' | 2.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
originale | Testo | corda | ||
semplificazioni | Sequenza(Testo) | (Nessuno,) | corda |
- Esempi ( tfds.as_dataframe ):
asset/rating
Descrizione della configurazione : valutazioni umane della semplificazione del testo prodotta automaticamente.
Dimensione del set di dati :
1.44 MiB
Divisioni :
Diviso | Esempi |
---|---|
'full' | 4.500 |
- Struttura delle caratteristiche :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
aspetto | ClassLabel | int64 | ||
originale | Testo | corda | ||
original_sentence_id | Tensore | int32 | ||
valutazione | Tensore | int32 | ||
semplificazione | Testo | corda | ||
lavoratore_id | Tensore | int32 |
- Esempi ( tfds.as_dataframe ):