- 説明:
ASSET は、「ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations」で説明されているように、複数の書き換え変換を伴う文簡略化システムを評価するためのデータセットです。コーパスは、異なるアノテーターによってそれぞれ 10 回簡略化された 2000 の検証と 359 のテスト原文で構成されています。コーパスには、いくつかの自動テキスト簡略化システムの出力に対する、意味の保持、流暢さ、および単純さに関する人間の判断も含まれています。
追加のドキュメント:コード を使用したペーパーの探索
ソース コード:
tfds.datasets.asset.Builder
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
ダウンロードサイズ:
3.47 MiB
自動キャッシュ(ドキュメント): はい
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
asset/simplification (デフォルト設定)
構成の説明: それぞれ 10 個の簡略化が可能な元の文章のセット。
データセットサイズ:
2.64 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 359 |
'validation' | 2,000 |
- 機能構造:
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
オリジナル | 文章 | ストリング | ||
単純化 | シーケンス(テキスト) | (なし、) | ストリング |
- 例( tfds.as_dataframe ):
資産/評価
構成の説明: 自動生成されたテキストの簡略化に対する人間の評価。
データセットサイズ:
1.44 MiB
スプリット:
スプリット | 例 |
---|---|
'full' | 4,500 |
- 機能構造:
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
側面 | クラスラベル | int64 | ||
オリジナル | 文章 | ストリング | ||
original_sentence_id | テンソル | int32 | ||
評価 | テンソル | int32 | ||
簡素化 | 文章 | ストリング | ||
worker_id | テンソル | int32 |
- 例( tfds.as_dataframe ):