- Açıklama :
bağlamsallaştırma
ASSIN 2, Avaliação de Similaridade Semântica e Inferência Textual'ın (Semantik Benzerliği ve Metinsel Yükümlülüğü Değerlendirme) ikinci baskısıdır ve STIL 2019 ile birlikte düzenlenen bir çalıştaydır. Yeni verilerle yeni bir paylaşılan görev öneren ASSIN'in ilk baskısını takip eder.
Çalıştay, iki cümle arasındaki iki tür ilişkiyi değerlendiren sistemleri değerlendirdi: Anlamsal Metinsel Benzerlik ve Metinsel Gereklilik.
Semantik Metinsel Benzerlik, cümleler arasındaki anlamsal eşdeğerlik düzeyini ölçmekten oluşurken Metinsel Gereksinim Tanıma, ilk cümlenin ikinciyi içerip içermediğini sınıflandırmaktan oluşur.
Veri
ASSIN 2'de kullanılan külliyat oldukça basit cümlelerden oluşuyor. SemEval 2014 Task 1 prosedürlerini takip ederek, varlıklar ve dolaylı anlatımları külliyattan çıkarmaya çalıştık ve tüm fiilleri şimdiki zamanda almaya çalıştık. Ek açıklama yapanlara verilen ek açıklama talimatları mevcuttur (Portekizce).
Eğitim ve doğrulama verileri Brezilya Portekizcesinde sırasıyla 6.500 ve 500 cümle çiftinden oluşmakta olup, gereklilik ve semantik benzerlik için açıklama eklenmiştir. Anlamsal benzerlik değerleri 1 ile 5 arasında değişir ve metin gereklilik sınıfları ya gerekliliktir ya da hiçbiridir. Test verileri, aynı açıklamaya sahip yaklaşık 3.000 cümle çiftinden oluşur. Tüm veriler manuel olarak not edildi.
Değerlendirme
Değerlendirme ASSIN 2'ye yapılan başvuruların değerlendirilmesi, ilk ASSIN ile aynı ölçütlerle yapıldı; F1 kesinlik ve metin kullanımı için ana ölçü olarak hatırlama ve semantik benzerlik için Pearson bağıntısıydı. Değerlendirme komut dosyaları , son baskıdaki ile aynıdır.
Not: Açıklama resmi ana sayfadan alınmıştır.
Ana Sayfa : https://sites.google.com/view/assin2/english
Kaynak kodu :
tfds.datasets.assin2.Builder
sürümler :
-
1.0.0
(varsayılan): İlk sürüm.
-
İndirme boyutu :
2.02 MiB
Veri kümesi boyutu :
1.82 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 2.448 |
'train' | 6.500 |
'validation' | 500 |
- Özellik yapısı :
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=string),
'id': int32,
'similarity': float32,
'text': Text(shape=(), dtype=string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
gereklilik | SınıfEtiketi | int64 | ||
hipotez | Metin | sicim | ||
İD | tensör | int32 | ||
benzerlik | tensör | şamandıra32 | ||
Metin | Metin | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}