- 説明:
文脈化
ASSIN 2 は Avaliação de Similaridade Semântica e Inferência Textual (Evaluating Semantic Similarity and Textual Entailment) の第 2 版であり、 STIL 2019と併催されたワークショップでした。これは ASSIN の初版に続き、新しいデータを使用した新しい共有タスクを提案しています。
ワークショップでは、2 つの文の間の 2 種類の関係を評価するシステムが評価されました。意味的テキスト類似性とテキスト含意です。
意味的テキスト類似性は、文間の意味的同等性のレベルを定量化することで構成され、テキスト含意認識は、最初の文が 2 番目の文を伴うかどうかを分類することで構成されます。
データ
ASSIN 2 で使用されるコーパスは、かなり単純な文章で構成されています。 SemEval 2014 タスク 1 の手順に従って、コーパスから固有表現と間接話法を削除し、すべての動詞を現在形にしようとしました。注釈者に与えられる注釈指示が利用可能です (ポルトガル語)。
トレーニング データと検証データは、それぞれブラジル ポルトガル語の 6,500 文と 500 文のペアで構成され、含意と意味の類似性について注釈が付けられています。意味的類似度の値の範囲は 1 ~ 5 で、テキスト含意クラスは含意またはなしのいずれかです。テスト データは、同じ注釈を持つ約 3,000 の文のペアで構成されます。すべてのデータに手動で注釈が付けられました。
評価
評価 ASSIN 2 への提出物の評価は、最初の ASSIN と同じメトリクスを使用して行われました。精度とリコールの F1 がテキスト含意の主要なメトリクスであり、ピアソン相関が意味的類似性についてありました。評価スクリプトは前版と同じです。
PS.: 説明は公式ホームページより抜粋。
追加のドキュメント:コード を使用したペーパーの探索
ソース コード:
tfds.datasets.assin2.Builder
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
ダウンロードサイズ:
2.02 MiB
データセットサイズ:
1.82 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 2,448 |
'train' | 6,500 |
'validation' | 500 |
- 機能構造:
FeaturesDict({
'entailment': ClassLabel(shape=(), dtype=int64, num_classes=2),
'hypothesis': Text(shape=(), dtype=string),
'id': int32,
'similarity': float32,
'text': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
含意 | クラスラベル | int64 | ||
仮説 | 文章 | ストリング | ||
ID | テンソル | int32 | ||
類似性 | テンソル | float32 | ||
文章 | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@inproceedings{DBLP:conf/propor/RealFO20,
author = {Livy Real and
Erick Fonseca and
Hugo Gon{\c{c} }alo Oliveira},
editor = {Paulo Quaresma and
Renata Vieira and
Sandra M. Alu{\'{\i} }sio and
Helena Moniz and
Fernando Batista and
Teresa Gon{\c{c} }alves},
title = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
booktitle = {Computational Processing of the Portuguese Language - 14th International
Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
series = {Lecture Notes in Computer Science},
volume = {12037},
pages = {406--412},
publisher = {Springer},
year = {2020},
url = {https://doi.org/10.1007/978-3-030-41505-1_39},
doi = {10.1007/978-3-030-41505-1_39},
timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
biburl = {https://dblp.org/rec/conf/propor/RealFO20.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}