- 説明:
比較可能なコーパス内の対訳文の識別。 2 つの文に分割された単一言語コーパスが与えられた場合、参加者システムは、互いの翻訳である文のペアを識別することが期待されます。
BUCC マイニング タスクは、2 つの単一言語コーパスから、それらのサブセットが並列であると想定された並列文抽出に関する共有タスクであり、2016 年から利用可能になっています。共有タスクは、言語ペアごとに、各言語の単一言語コーパスを提供し、真の翻訳ペアを含むゴールド マッピング リスト。これらのペアはグラウンド トゥルースです。タスクは、単一言語コーパスから翻訳ペアのリストを作成することです。構築されたリストはグラウンド トゥルースと比較され、F1 尺度で評価されます。
ソース コード:
tfds.datasets.bucc.Builder
バージョン:
-
1.0.0
(デフォルト): 初期リリース。
-
自動キャッシュ(ドキュメント): はい
機能構造:
FeaturesDict({
'source_id': Text(shape=(), dtype=string),
'source_sentence': Text(shape=(), dtype=string),
'target_id': Text(shape=(), dtype=string),
'target_sentence': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
source_id | 文章 | ストリング | ||
source_sentence | 文章 | ストリング | ||
target_id | 文章 | ストリング | ||
target_sentence | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@inproceedings{zweigenbaum2018overview,
title={Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora},
author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
pages={39--42},
year={2018}
}
bucc/bucc_de (デフォルト設定)
ダウンロード サイズ:
29.30 MiB
データセットサイズ:
3.21 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 9,580 |
'validation' | 1,038人 |
- 例( tfds.as_dataframe ):
bucc/bucc_fr
ダウンロードサイズ:
21.65 MiB
データセットのサイズ:
2.90 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 9,086 |
'validation' | 929 |
- 例( tfds.as_dataframe ):
bucc/bucc_zh
ダウンロードサイズ:
6.79 MiB
データセットサイズ:
615.20 KiB
スプリット:
スプリット | 例 |
---|---|
'test' | 1,899 |
'validation' | 257 |
- 例( tfds.as_dataframe ):
bucc/bucc_ru
ダウンロードサイズ:
39.44 MiB
データセットサイズ:
6.36 MiB
スプリット:
スプリット | 例 |
---|---|
'test' | 14,435 |
'validation' | 2,374 |
- 例( tfds.as_dataframe ):