- 説明:
statmt.org のデータに基づいてデータセットを翻訳します。
複数のデータ ソースの組み合わせを使用して、さまざまな年のバージョンが存在します。ベースwmt_translate
を使用すると、カスタムtfds.translate.wmt.WmtConfig
を作成することにより、独自の構成を作成して独自のデータ/言語のペアを選択できます。
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
ソースコード:
tfds.translate.Wmt17Translate
バージョン:
-
1.0.0
(デフォルト): リリース ノートはありません。
-
手動ダウンロードの手順: このデータセットでは、ソース データを手動で
download_config.manual_dir
(デフォルトは~/tensorflow_datasets/downloads/manual/
) にダウンロードする必要があります。
ここにある wmt 構成の一部は、手動でダウンロードする必要があります。ダウンロードする必要がある正確なパス (およびファイル名) を確認するには、wmt.py を調べてください。図( tfds.show_examples ): サポートされていません。
引用:
@InProceedings{bojar-EtAl:2017:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huang, Shujian and Huck, Matthias and Koehn, Philipp and Liu, Qun and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Rubino, Raphael and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2017 Conference on Machine Translation (WMT17)},
booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
month = {September},
year = {2017},
address = {Copenhagen, Denmark},
publisher = {Association for Computational Linguistics},
pages = {169--214},
url = {http://www.aclweb.org/anthology/W17-4717}
}
wmt17_translate/cs-en (デフォルト設定)
構成の説明: WMT 2017 cs-en 翻訳タスク データセット。
ダウンロードサイズ:
1.66 GiB
データセットサイズ:
2.91 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 3,005 |
'train' | 15,851,649 |
'validation' | 2,999 |
- 機能構造:
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
cs | 文章 | ストリング | ||
ja | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('cs', 'en')
例( tfds.as_dataframe ):
wmt17_translate/de-en
構成の説明: WMT 2017 de-en 翻訳タスク データセット。
ダウンロードサイズ:
1.81 GiB
データセットサイズ:
1.73 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 3,004 |
'train' | 5,906,184 |
'validation' | 2,999 |
- 機能構造:
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
で | 文章 | ストリング | ||
ja | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('de', 'en')
例( tfds.as_dataframe ):
wmt17_translate/fi-ja
構成の説明: WMT 2017 fi-en 翻訳タスク データセット。
ダウンロードサイズ:
414.10 MiB
データセットのサイズ:
769.87 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 6,004 |
'train' | 2,656,542 |
'validation' | 6,000 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
フィ | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('fi', 'en')
例( tfds.as_dataframe ):
wmt17_translate/lv-ja
構成の説明: WMT 2017 lv-en 翻訳タスク データセット。
ダウンロードサイズ:
161.69 MiB
データセットサイズ:
562.26 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 2,001 |
'train' | 3,567,528 |
'validation' | 2,003 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
LV | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('lv', 'en')
例( tfds.as_dataframe ):
wmt17_translate/ru-ja
構成の説明: WMT 2017 ru-en 翻訳タスク データセット。
ダウンロードサイズ:
1.06 GiB
データセットサイズ:
11.18 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 3,001 |
'train' | 25,782,720 |
'validation' | 2,998 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
ル | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('ru', 'en')
例( tfds.as_dataframe ):
wmt17_translate/tr-ja
構成の説明: WMT 2017 tr-en 翻訳タスク データセット。
ダウンロードサイズ:
59.32 MiB
データセットのサイズ:
63.74 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 3,007 |
'train' | 205,756 |
'validation' | 3,000 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
トレ | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('tr', 'en')
例( tfds.as_dataframe ):
wmt17_translate/zh-en
構成の説明: WMT 2017 zh-en 翻訳タスク データセット。
ダウンロードサイズ:
884.32 MiB
データセットサイズ:
6.43 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 2,001 |
'train' | 25,136,609 |
'validation' | 2,002 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
zh | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('zh', 'en')
例( tfds.as_dataframe ):