バック

説明:

比較可能なコーパス内の対訳文の識別。 2 つの文に分割された単一言語コーパスが与えられた場合、参加者システムは、互いの翻訳である文のペアを識別することが期待されます。

BUCC マイニングタスクは、2 つの単一言語コーパスから、それらのサブセットが並列であると想定された並列文抽出に関する共有タスクであり、2016 年から利用可能になっています。共有タスクは、言語ペアごとに、各言語の単一言語コーパスを提供し、真の翻訳ペアを含むゴールドマッピングリスト。これらのペアはグラウンドトゥルースです。タスクは、単一言語コーパスから翻訳ペアのリストを作成することです。構築されたリストはグラウンドトゥルースと比較され、F1 尺度で評価されます。

ホームページ: https://comparable.limsi.fr/bucc2018/
ソースコード: tfds.datasets.bucc.Builder
バージョン:
- 1.0.0 (デフォルト): 初期リリース。
自動キャッシュ(ドキュメント): はい
機能構造:

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
source_id	文章	ストリング
source_sentence	文章	ストリング
target_id	文章	ストリング
target_sentence	文章	ストリング

監視されたキー( as_supervised docを参照): None
図( tfds.show_examples ): サポートされていません。
引用：

@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (デフォルト設定)

ダウンロードサイズ: 29.30 MiB
データセットサイズ: 3.21 MiB
スプリット:

スプリット	例
`'test'`	9,580
`'validation'`	1,038人

例( tfds.as_dataframe ):

bucc/bucc_fr

ダウンロードサイズ: 21.65 MiB
データセットのサイズ: 2.90 MiB
スプリット:

スプリット	例
`'test'`	9,086
`'validation'`	929

例( tfds.as_dataframe ):

bucc/bucc_zh

ダウンロードサイズ: 6.79 MiB
データセットサイズ: 615.20 KiB
スプリット:

スプリット	例
`'test'`	1,899
`'validation'`	257

例( tfds.as_dataframe ):

bucc/bucc_ru

ダウンロードサイズ: 39.44 MiB
データセットサイズ: 6.36 MiB
スプリット:

スプリット	例
`'test'`	14,435
`'validation'`	2,374

例( tfds.as_dataframe ):

バック コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

bucc/bucc_de (デフォルト設定)

bucc/bucc_fr

bucc/bucc_zh

bucc/bucc_ru

バック