xtreme_pawsx

  • 説明:

このデータセットには、英語の PAWS トレーニング データの機械翻訳が含まれています。翻訳は XTREME ベンチマークによって提供され、次の言語をカバーしています。

  • フランス語
  • スペイン語
  • ドイツ人
  • 中国語
  • 日本
  • 韓国語

PAWS の詳細については、PAWS: Paraphrase Adversaries from Word Scrambling ( https://arxiv.org/abs/1904.01130)および PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification ( https://arxiv) を参照してください。組織/abs/1908.11828

XTREME に関する詳細については、 https ://arxiv.org/abs/2003.11080 の XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization を参照してください。

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ラベルクラスラベルint64
センテンス1文章ストリング
センテンス2文章ストリング
@article{hu2020xtreme,
      author    = {Junjie Hu and Sebastian Ruder and Aditya Siddhant and Graham Neubig and Orhan Firat and Melvin Johnson},
      title     = {XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization},
      journal   = {CoRR},
      volume    = {abs/2003.11080},
      year      = {2020},
      archivePrefix = {arXiv},
      eprint    = {2003.11080}
}

xtreme_pawsx/de (デフォルト設定)

  • 構成の説明: de に翻訳

  • ダウンロードサイズ: 22.34 MiB

  • データセットのサイズ: 14.19 MiB

  • スプリット:

スプリット
'train' 49,340

xtreme_pawsx/es

  • 構成の説明: es に翻訳

  • ダウンロードサイズ: 22.27 MiB

  • データセットのサイズ: 14.09 MiB

  • スプリット:

スプリット
'train' 49,244

xtreme_pawsx/fr

  • 構成の説明: fr に翻訳

  • ダウンロード サイズ: 22.70 MiB

  • データセットサイズ: 14.53 MiB

  • スプリット:

スプリット
'train' 49,208

xtreme_pawsx/ja

  • 構成の説明: 日本語に翻訳

  • ダウンロードサイズ: 25.12 MiB

  • データセットのサイズ: 16.98 MiB

  • スプリット:

スプリット
'train' 49,086

xtreme_pawsx/ko

  • 構成の説明: ko に翻訳

  • ダウンロードサイズ: 22.99 MiB

  • データセットサイズ: 14.86 MiB

  • スプリット:

スプリット
'train' 49,298

xtreme_pawsx/zh

  • 構成の説明: zh に翻訳

  • ダウンロードサイズ: 21.45 MiB

  • データセットサイズ: 13.21 MiB

  • スプリット:

スプリット
'train' 49,149