- 説明:
このデータセットには、人間が翻訳した 23,659 の PAWS 評価ペアと、類型的に異なる 6 つの言語による機械翻訳された 296,406 のトレーニング ペアが含まれています。
- フランス語
- スペイン語
- ドイツ人
- 中国語
- 日本
- 韓国語
詳細については、付属の論文を参照してください: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification ( https://arxiv.org/abs/1908.11828)
PAWS データセットと同様に、例はトレーニング/開発/テストのセクションに分かれています。すべてのファイルは、次の 4 つの列を持つ tsv 形式です。
-
id
: 各ペアの一意の ID。 -
sentence1
1 : 最初の文。 -
sentence2
2 : 2番目の文。 -
(noisy_)label
: 各ペアの (Noisy) ラベル。
各ラベルには 2 つの可能な値があります。0 はペアが異なる意味を持つことを示し、1 はペアが言い換えであることを示します。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: https://github.com/google-research-datasets/paws/tree/master/pawsx
ソース コード:
tfds.datasets.paws_x_wiki.Builder
バージョン:
-
1.0.0
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ:
28.88 MiB
自動キャッシュ(ドキュメント): はい
機能構造:
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ラベル | クラスラベル | int64 | ||
センテンス1 | 文章 | ストリング | ||
センテンス2 | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (デフォルト設定)
構成の説明: de に翻訳
データセットサイズ:
15.27 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 49,380 |
'validation' | 2,000 |
- 例( tfds.as_dataframe ):
paws_x_wiki/en
構成の説明: en に翻訳
データセットのサイズ:
14.59 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 49,175 |
'validation' | 2,000 |
- 例( tfds.as_dataframe ):
paws_x_wiki/es
構成の説明: es に翻訳
データセットサイズ:
15.27 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 1,961人 |
- 例( tfds.as_dataframe ):
paws_x_wiki/fr
構成の説明: fr に翻訳
データセットのサイズ:
15.79 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 49,399 |
'validation' | 1,988人 |
- 例( tfds.as_dataframe ):
paws_x_wiki/ja
構成の説明: 日本語に翻訳
データセットのサイズ:
17.77 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- 例( tfds.as_dataframe ):
paws_x_wiki/ko
構成の説明: ko に翻訳
データセットサイズ:
16.42 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 1,999 |
'train' | 49,164 |
'validation' | 2,000 |
- 例( tfds.as_dataframe ):
paws_x_wiki/zh
構成の説明: zh に翻訳
データセットのサイズ:
13.20 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- 例( tfds.as_dataframe ):