- Descrizione :
WikiAuto fornisce una serie di frasi allineate da Wikipedia in inglese e Wikipedia in inglese semplice come risorsa per addestrare i sistemi di semplificazione delle frasi. Gli autori hanno prima raccolto in crowdsourcing una serie di allineamenti manuali tra frasi in un sottoinsieme della Wikipedia in inglese semplice e le versioni corrispondenti nella Wikipedia in inglese (questo corrisponde alla configurazione manual
), quindi hanno addestrato un sistema CRF neurale per prevedere questi allineamenti. Il modello addestrato è stato quindi applicato agli altri articoli in Wikipedia in inglese semplice con una controparte inglese per creare un corpus più ampio di frasi allineate (corrispondenti alle configurazioni auto
, auto_acl
, auto_full_no_split
e auto_full_with_split
qui).
Pagina iniziale : https://github.com/chaojiang06/wiki-auto
Codice sorgente :
tfds.text_simplification.wiki_auto.WikiAuto
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Citazione :
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto/manual (configurazione predefinita)
Descrizione della configurazione : una serie di 10.000 coppie di frasi di Wikipedia allineate da crowd worker.
Dimensione del download :
53.47 MiB
Dimensione del set di dati:
76.87 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'dev' | 73.249 |
'test' | 118.074 |
- Struttura delle caratteristiche :
FeaturesDict({
'GLEU-score': float64,
'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
Punteggio GLEU | Tensore | galleggiante64 | ||
etichetta_allineamento | ClassLabel | int64 | ||
frase_normale | Testo | corda | ||
normal_sentence_id | Testo | corda | ||
frase semplice | Testo | corda | ||
simple_sentence_id | Testo | corda |
- Esempi ( tfds.as_dataframe ):
wiki_auto/auto_acl
Descrizione della configurazione : coppie di frasi allineate per addestrare il sistema ACL2020.
Dimensione del download :
112.60 MiB
Dimensione del set di dati:
138.83 MiB
Cache automatica ( documentazione ): solo quando
shuffle_files=False
(completo)Divisioni :
Diviso | Esempi |
---|---|
'full' | 488.332 |
- Struttura delle caratteristiche :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
frase_normale | Testo | corda | ||
frase semplice | Testo | corda |
- Esempi ( tfds.as_dataframe ):
wiki_auto/auto_full_no_split
Descrizione della configurazione : tutte le coppie di frasi allineate automaticamente senza suddivisione della frase.
Dimensione del download :
135.02 MiB
Dimensione del set di dati:
166.78 MiB
Cache automatica ( documentazione ): solo quando
shuffle_files=False
(completo)Divisioni :
Diviso | Esempi |
---|---|
'full' | 591.994 |
- Struttura delle caratteristiche :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
frase_normale | Testo | corda | ||
frase semplice | Testo | corda |
- Esempi ( tfds.as_dataframe ):
wiki_auto/auto_full_with_split
Descrizione della configurazione : tutte le coppie di frasi allineate automaticamente con suddivisione delle frasi.
Dimensione del download :
115.09 MiB
Dimensione del set di dati:
141.20 MiB
Cache automatica ( documentazione ): solo quando
shuffle_files=False
(completo)Divisioni :
Diviso | Esempi |
---|---|
'full' | 483.801 |
- Struttura delle caratteristiche :
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=string),
'simple_sentence': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
frase_normale | Testo | corda | ||
frase semplice | Testo | corda |
- Esempi ( tfds.as_dataframe ):
wiki_auto/auto
Descrizione della configurazione : un ampio set di coppie di frasi allineate automaticamente.
Dimensione del download :
2.01 GiB
Dimensione del set di dati:
1.76 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'part_1' | 125.059 |
'part_2' | 13.036 |
- Struttura delle caratteristiche :
FeaturesDict({
'example_id': Text(shape=(), dtype=string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=string),
'normal_sentence_id': Text(shape=(), dtype=string),
}),
'normal_article_id': int32,
'normal_article_title': Text(shape=(), dtype=string),
'normal_article_url': Text(shape=(), dtype=string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=string),
'simple_paragraph_id': Text(shape=(), dtype=string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=string),
'simple_sentence_id': Text(shape=(), dtype=string),
}),
'simple_article_id': int32,
'simple_article_title': Text(shape=(), dtype=string),
'simple_article_url': Text(shape=(), dtype=string),
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
esempio_id | Testo | corda | ||
normale | CaratteristicheDict | |||
normale/normale_articolo_contenuto | Sequenza | |||
normale/normale_articolo_contenuto/normale_frase | Testo | corda | ||
normal/normal_article_content/normal_sentence_id | Testo | corda | ||
normale/normal_articolo_id | Tensore | int32 | ||
normale/titolo_articolo_normale | Testo | corda | ||
normale/normale_articolo_url | Testo | corda | ||
allineamento_paragrafo | Sequenza | |||
allineamento_paragrafo/id_paragrafo_normale | Testo | corda | ||
allineamento_paragrafo/id_paragrafo_semplice | Testo | corda | ||
frase_allineamento | Sequenza | |||
allineamento_frase/ID_frase_normale | Testo | corda | ||
frase_allineamento/simple_sentence_id | Testo | corda | ||
semplice | CaratteristicheDict | |||
semplice/semplice_articolo_contenuto | Sequenza | |||
semplice/semplice_articolo_contenuto/semplice_frase | Testo | corda | ||
semplice/simple_article_content/simple_sentence_id | Testo | corda | ||
semplice/simple_article_id | Tensore | int32 | ||
semplice/titolo_articolo_semplice | Testo | corda | ||
semplice/semplice_articolo_url | Testo | corda |
- Esempi ( tfds.as_dataframe ):