assino2

  • Descrizione :

Contestualizzazione

ASSIN 2 è la seconda edizione dell'Avaliação de Similaridade Semântica e Inferência Textual (Evaluating Semantic Similarity and Textual Entailment), ed è stato un workshop collocato con STIL 2019 . Segue la prima edizione di ASSIN , proponendo un nuovo compito condiviso con nuovi dati.

Il workshop ha valutato i sistemi che valutano due tipi di relazioni tra due frasi: Somiglianza testuale semantica e Coinvolgimento testuale.

La Semantic Textual Similarity consiste nel quantificare il livello di equivalenza semantica tra le frasi, mentre il Textual Entailment Recognition consiste nel classificare se la prima frase implica la seconda.

Dati

Il corpus utilizzato in ASSIN 2 è composto da frasi piuttosto semplici. Seguendo le procedure del SemEval 2014 Task 1, abbiamo provato a rimuovere dal corpus le entità denominate e il discorso indiretto, e abbiamo cercato di avere tutti i verbi al presente. Sono disponibili le istruzioni di annotazione fornite agli annotatori (in portoghese).

I dati di addestramento e convalida sono composti, rispettivamente, da 6.500 e 500 coppie di frasi in portoghese brasiliano, annotate per implicazione e somiglianza semantica. I valori di somiglianza semantica vanno da 1 a 5 e le classi di implicazione del testo possono essere implicazione o nessuna. I dati del test sono composti da circa 3.000 coppie di frasi con la stessa annotazione. Tutti i dati sono stati annotati manualmente.

Valutazione

Valutazione La valutazione delle sottomissioni ad ASSIN 2 è stata effettuata con le stesse metriche del primo ASSIN, con la F1 di precisione e richiamo come metrica principale per il coinvolgimento del testo e la correlazione di Pearson per la somiglianza semantica. Gli script di valutazione sono gli stessi della scorsa edizione.

PS.: La descrizione è estratta dalla homepage ufficiale .

Diviso Esempi
'test' 2.448
'train' 6.500
'validation' 500
  • Struttura delle caratteristiche :
FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=string),
    'id': int32,
    'similarity': float32,
    'text': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
implicazione ClassLabel int64
ipotesi Testo corda
id Tensore int32
somiglianza Tensore galleggiante32
testo Testo corda
  • Citazione :
@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}