- Descripción :
contextualización
ASSIN 2 es la segunda edición de Avaliação de Similaridade Semântica e Inferência Textual (Evaluación de la similitud semántica y la vinculación textual), y fue un taller ubicado junto con STIL 2019 . Sigue la primera edición de ASSIN , proponiendo una nueva tarea compartida con nuevos datos.
El taller evaluó sistemas que evalúan dos tipos de relaciones entre dos oraciones: Similitud Textual Semántica y Vinculación Textual.
La Similitud Semántica Textual consiste en cuantificar el nivel de equivalencia semántica entre oraciones, mientras que el Reconocimiento de Vinculación Textual consiste en clasificar si la primera oración implica la segunda.
Datos
El corpus utilizado en ASSIN 2 se compone de oraciones bastante simples. Siguiendo los procedimientos de la Tarea 1 de SemEval 2014, intentamos eliminar del corpus las entidades nombradas y el estilo indirecto, y tratamos de tener todos los verbos en tiempo presente. Las instrucciones de anotación dadas a los anotadores están disponibles (en portugués).
Los datos de entrenamiento y validación se componen, respectivamente, de 6.500 y 500 pares de oraciones en portugués brasileño, anotadas por vinculación y similitud semántica. Los valores de similitud semántica oscilan entre 1 y 5, y las clases de vinculación de texto son vinculación o ninguna. Los datos de la prueba se componen de aproximadamente 3000 pares de oraciones con la misma anotación. Todos los datos fueron anotados manualmente.
Evaluación
Evaluación La evaluación de los envíos al ASSIN 2 se realizó con las mismas métricas que el primer ASSIN, con la F1 de precisión y recuerdo como la métrica principal para la vinculación del texto y la correlación de Pearson para la similitud semántica. Los guiones de evaluación son los mismos que en la última edición.
PD.: La descripción se extrae de la página de inicio oficial .
Documentación adicional : Explore en Papers With Code
Página de inicio: https://sites.google.com/view/assin2/english
Código fuente :
tfds.datasets.assin2.Builder
Versiones :
-
1.0.0
(predeterminado): Versión inicial.
-
Tamaño de la descarga :
2.02 MiB
Tamaño del conjunto de datos :
1.82 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 2,448 |
'train' | 6,500 |
'validation' | 500 |
- Estructura de características :
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=string),
'id': int32,
'similarity': float32,
'text': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
vinculación | Etiqueta de clase | int64 | ||
hipótesis | Texto | cuerda | ||
identificación | Tensor | int32 | ||
semejanza | Tensor | flotar32 | ||
texto | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}