- Descrizione :
Contestualizzazione
ASSIN 2 è la seconda edizione dell'Avaliação de Similaridade Semântica e Inferência Textual (Evaluating Semantic Similarity and Textual Entailment), ed è stato un workshop collocato con STIL 2019 . Segue la prima edizione di ASSIN , proponendo un nuovo compito condiviso con nuovi dati.
Il workshop ha valutato i sistemi che valutano due tipi di relazioni tra due frasi: Somiglianza testuale semantica e Coinvolgimento testuale.
La Semantic Textual Similarity consiste nel quantificare il livello di equivalenza semantica tra le frasi, mentre il Textual Entailment Recognition consiste nel classificare se la prima frase implica la seconda.
Dati
Il corpus utilizzato in ASSIN 2 è composto da frasi piuttosto semplici. Seguendo le procedure del SemEval 2014 Task 1, abbiamo provato a rimuovere dal corpus le entità denominate e il discorso indiretto, e abbiamo cercato di avere tutti i verbi al presente. Sono disponibili le istruzioni di annotazione fornite agli annotatori (in portoghese).
I dati di addestramento e convalida sono composti, rispettivamente, da 6.500 e 500 coppie di frasi in portoghese brasiliano, annotate per implicazione e somiglianza semantica. I valori di somiglianza semantica vanno da 1 a 5 e le classi di implicazione del testo possono essere implicazione o nessuna. I dati del test sono composti da circa 3.000 coppie di frasi con la stessa annotazione. Tutti i dati sono stati annotati manualmente.
Valutazione
Valutazione La valutazione delle sottomissioni ad ASSIN 2 è stata effettuata con le stesse metriche del primo ASSIN, con la F1 di precisione e richiamo come metrica principale per il coinvolgimento del testo e la correlazione di Pearson per la somiglianza semantica. Gli script di valutazione sono gli stessi della scorsa edizione.
PS.: La descrizione è estratta dalla homepage ufficiale .
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://sites.google.com/view/assin2/english
Codice sorgente :
tfds.datasets.assin2.Builder
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale.
-
Dimensione del download :
2.02 MiB
Dimensione del set di dati :
1.82 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'test' | 2.448 |
'train' | 6.500 |
'validation' | 500 |
- Struttura delle caratteristiche :
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=string),
'id': int32,
'similarity': float32,
'text': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
implicazione | ClassLabel | int64 | ||
ipotesi | Testo | corda | ||
id | Tensore | int32 | ||
somiglianza | Tensore | galleggiante32 | ||
testo | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}