バック

  • 説明:

比較可能なコーパス内の対訳文の識別。 2 つの文に分割された単一言語コーパスが与えられた場合、参加者システムは、互いの翻訳である文のペアを識別することが期待されます。

BUCC マイニング タスクは、2 つの単一言語コーパスから、それらのサブセットが並列であると想定された並列文抽出に関する共有タスクであり、2016 年から利用可能になっています。共有タスクは、言語ペアごとに、各言語の単一言語コーパスを提供し、真の翻訳ペアを含むゴールド マッピング リスト。これらのペアはグラウンド トゥルースです。タスクは、単一言語コーパスから翻訳ペアのリストを作成することです。構築されたリストはグラウンド トゥルースと比較され、F1 尺度で評価されます。

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
source_id文章ストリング
source_sentence文章ストリング
target_id文章ストリング
target_sentence文章ストリング
@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (デフォルト設定)

  • ダウンロード サイズ: 29.30 MiB

  • データセットサイズ: 3.21 MiB

  • スプリット:

スプリット
'test' 9,580
'validation' 1,038人

bucc/bucc_fr

  • ダウンロードサイズ: 21.65 MiB

  • データセットのサイズ: 2.90 MiB

  • スプリット:

スプリット
'test' 9,086
'validation' 929

bucc/bucc_zh

  • ダウンロードサイズ: 6.79 MiB

  • データセットサイズ: 615.20 KiB

  • スプリット:

スプリット
'test' 1,899
'validation' 257

bucc/bucc_ru

  • ダウンロードサイズ: 39.44 MiB

  • データセットサイズ: 6.36 MiB

  • スプリット:

スプリット
'test' 14,435
'validation' 2,374