asset

  • Descrizione :

ASSET è un set di dati per la valutazione dei sistemi di semplificazione delle frasi con più trasformazioni di riscrittura, come descritto in "ASSET: un set di dati per l'ottimizzazione e la valutazione dei modelli di semplificazione delle frasi con trasformazioni multiple di riscrittura". Il corpus è composto da 2000 frasi originali di validazione e 359 di prova, ognuna delle quali è stata semplificata 10 volte da diversi annotatori. Il corpus contiene anche giudizi umani sulla conservazione del significato, fluidità e semplicità per gli output di diversi sistemi automatici di semplificazione del testo.

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

risorsa/semplificazione (configurazione predefinita)

  • Descrizione della configurazione : una serie di frasi originali allineate con 10 possibili semplificazioni per ognuna.

  • Dimensione del set di dati: 2.64 MiB

  • Divisioni :

Diviso Esempi
'test' 359
'validation' 2.000
  • Struttura delle caratteristiche :
FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
originale Testo corda
semplificazioni Sequenza(Testo) (Nessuno,) corda

asset/rating

  • Descrizione della configurazione : valutazioni umane della semplificazione del testo prodotta automaticamente.

  • Dimensione del set di dati : 1.44 MiB

  • Divisioni :

Diviso Esempi
'full' 4.500
  • Struttura delle caratteristiche :
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
aspetto ClassLabel int64
originale Testo corda
original_sentence_id Tensore int32
valutazione Tensore int32
semplificazione Testo corda
lavoratore_id Tensore int32