zasób

  • opis :

ASSET to zestaw danych do oceny systemów uproszczenia zdań z wieloma przekształceniami przepisywania, zgodnie z opisem w „ASSET: zestaw danych do dostrajania i oceny modeli uproszczenia zdań z wielokrotnymi przekształceniami przepisywania”. Korpus składa się z 2000 walidacji i 359 oryginalnych zdań testowych, z których każde zostało uproszczone 10 razy przez różnych adnotatorów. Korpus zawiera również ludzkie oceny zachowania znaczenia, płynności i prostoty wyników kilku automatycznych systemów upraszczania tekstu.

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

zasób/uproszczenie (domyślna konfiguracja)

  • Opis konfiguracji: zestaw oryginalnych zdań z 10 możliwymi uproszczeniami dla każdego.

  • Rozmiar zestawu danych : 2.64 MiB

  • Podziały :

Rozdzielać Przykłady
'test' 359
'validation' 2000
  • Struktura funkcji :
FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
oryginał Tekst strunowy
uproszczenia Sekwencja (tekst) (Nic,) strunowy

aktywa/oceny

  • Opis konfiguracji : Ludzkie oceny automatycznie generowanego uproszczenia tekstu.

  • Rozmiar zestawu danych : 1.44 MiB

  • Podziały :

Rozdzielać Przykłady
'full' 4500
  • Struktura funkcji :
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
aspekt Etykieta klasy int64
oryginał Tekst strunowy
oryginalne_zdanie_id Napinacz int32
ocena Napinacz int32
uproszczenie Tekst strunowy
identyfikator_pracownika Napinacz int32