- Descrição :
Contextualização
O ASSIN 2 é a segunda edição da Avaliação de Similaridade Semântica e Inferência Textual (Evaluating Semantic Similarity and Textual Entailment), e foi um workshop colocado no STIL 2019 . Segue a primeira edição do ASSIN , propondo uma nova tarefa compartilhada com novos dados.
A oficina avaliou sistemas que avaliam dois tipos de relações entre duas sentenças: Semântica Textual Similarity e Textual Entailment.
A Similaridade Semântica Textual consiste em quantificar o nível de equivalência semântica entre as sentenças, enquanto o Reconhecimento de Implicações Textuais consiste em classificar se a primeira sentença implica na segunda.
Dados
O corpus utilizado em ASSIN 2 é composto por frases bastante simples. Seguindo os procedimentos da Tarefa 1 do SemEval 2014, tentamos retirar do corpus as entidades nomeadas e o discurso indireto, e tentamos ter todos os verbos no presente do indicativo. As instruções de anotação dadas aos anotadores estão disponíveis (em português).
Os dados de treinamento e validação são compostos, respectivamente, por 6.500 e 500 pares de sentenças em português brasileiro, anotados para vinculação e similaridade semântica. Os valores de similaridade semântica variam de 1 a 5, e as classes de vinculação de texto são vinculação ou nenhuma. Os dados do teste são compostos por aproximadamente 3.000 pares de sentenças com a mesma anotação. Todos os dados foram anotados manualmente.
Avaliação
Avaliação A avaliação das submissões ao ASSIN 2 foi com as mesmas métricas do primeiro ASSIN, com F1 de precisão e recordação como a principal métrica para vinculação de texto e correlação de Pearson para similaridade semântica. Os roteiros de avaliação são os mesmos da última edição.
PS.: A descrição foi extraída da homepage oficial .
Documentação Adicional : Explore em Papers With Code
Página inicial : https://sites.google.com/view/assin2/english
Código -fonte:
tfds.datasets.assin2.Builder
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
2.02 MiB
Tamanho do conjunto de dados :
1.82 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.448 |
'train' | 6.500 |
'validation' | 500 |
- Estrutura de recursos :
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=string),
'id': int32,
'similarity': float32,
'text': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
vinculação | ClassLabel | int64 | ||
hipótese | Texto | corda | ||
Eu iria | tensor | int32 | ||
semelhança | tensor | float32 | ||
texto | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):None
Figura ( tfds.show_examples ): Não suportado.
Exemplos ( tfds.as_dataframe ):
- Citação :
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}