para_crawl

  • 説明:

ヨーロッパの公用語用の Web スケールの対訳コーパス。

@misc {paracrawl,
    title  = "ParaCrawl",
    year   = "2018",
    url    = "http://paracrawl.eu/download.html."
}

para_crawl/enbg (デフォルト設定)

  • 構成の説明: 英語から bg への翻訳データセット。

  • ダウンロードサイズ: 98.94 MiB

  • データセットサイズ: 362.46 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 1,039,885
  • 機能構造:
Translation({
    'bg': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
BG文章ストリング
ja文章ストリング

para_crawl/encs

  • 構成の説明: 英語から cs への翻訳データセット。

  • ダウンロードサイズ: 187.31 MiB

  • データセットサイズ: 666.34 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 2,981,949
  • 機能構造:
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
cs文章ストリング
ja文章ストリング

para_crawl/エンダ

  • 構成の説明: 英語から da への翻訳データセット。

  • ダウンロードサイズ: 174.34 MiB

  • データセットのサイズ: 619.77 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 2,414,895
  • 機能構造:
Translation({
    'da': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
文章ストリング
ja文章ストリング

para_crawl/エンデ

  • 構成の説明: 英語から de への翻訳データセット。

  • ダウンロードサイズ: 1.22 GiB

  • データセットサイズ: 4.04 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 16,264,448
  • 機能構造:
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
文章ストリング
ja文章ストリング

para_crawl/enel

  • 構成の説明: 英語から el への翻訳データセット。

  • ダウンロードサイズ: 184.59 MiB

  • データセットサイズ: 698.75 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 1,985,233
  • 機能構造:
Translation({
    'el': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
エル文章ストリング
ja文章ストリング

para_crawl/enes

  • 構成の説明: 英語から es への翻訳データセット。

  • ダウンロードサイズ: 1.82 GiB

  • データセットサイズ: 6.23 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 21,987,267
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'es': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
エス文章ストリング

para_crawl/enet

  • 構成の説明: 英語から et への翻訳データセット。

  • ダウンロードサイズ: 66.91 MiB

  • データセットサイズ: 209.16 MiB

  • 自動キャッシュ(ドキュメント): shuffle_files=Falseの場合のみ (トレーニング)

  • スプリット:

スプリット
'train' 853,422
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'et': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
文章ストリング

para_crawl/enfi

  • 構成の説明: 英語から fi への翻訳データセット。

  • ダウンロードサイズ: 151.83 MiB

  • データセットのサイズ: 543.85 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 2,156,069
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
フィ文章ストリング

para_crawl/enfr

  • 構成の説明: 英語から fr への翻訳データセット。

  • ダウンロードサイズ: 2.63 GiB

  • データセットサイズ: 9.04 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 31,374,161
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'fr': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
フランス文章ストリング

para_crawl/enga

  • 構成の説明: 英語から ga への翻訳データセット。

  • ダウンロードサイズ: 28.03 MiB

  • データセットのサイズ: 107.09 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 357,399
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'ga': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
文章ストリング

para_crawl/enhr

  • 構成の説明: 英語から時間への翻訳データセット。

  • ダウンロードサイズ: 80.97 MiB

  • データセットサイズ: 256.37 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 1,002,053
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'hr': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
時間文章ストリング

para_crawl/enhu

  • 構成の説明: 英語から hu への翻訳データセット。

  • ダウンロードサイズ: 114.24 MiB

  • データセットサイズ: 421.40 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 1,901,342
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'hu': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
文章ストリング

para_crawl/enit

  • 構成の説明: 英語から英語への翻訳データセット。

  • ダウンロードサイズ: 1017.30 MiB

  • データセットサイズ: 3.36 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 12,162,239
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'it': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
それ文章ストリング

para_crawl/enlt

  • 構成の説明: 英語から lt への翻訳データセット。

  • ダウンロードサイズ: 63.28 MiB

  • データセットのサイズ: 204.70 MiB

  • 自動キャッシュ(ドキュメント): shuffle_files=Falseの場合のみ (トレーニング)

  • スプリット:

スプリット
'train' 844,643
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'lt': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
それ文章ストリング

para_crawl/enlv

  • 構成の説明: 英語から lv への翻訳データセット。

  • ダウンロードサイズ: 45.17 MiB

  • データセットサイズ: 147.09 MiB

  • 自動キャッシュ(ドキュメント): shuffle_files=Falseの場合のみ (トレーニング)

  • スプリット:

スプリット
'train' 553,060
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'lv': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
LV文章ストリング

para_crawl/enmt

  • 構成の説明: 英語から mt への翻訳データセット。

  • ダウンロードサイズ: 18.15 MiB

  • データセットサイズ: 54.36 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'train' 195,502
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'mt': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
mt文章ストリング

para_crawl/ennl

  • 構成の説明: 英語から nl への翻訳データセット。

  • ダウンロードサイズ: 400.63 MiB

  • データセットサイズ: 1.40 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 5,659,268
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'nl': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
nl文章ストリング

para_crawl/enpl

  • 構成の説明: 英語から pl への翻訳データセット。

  • ダウンロードサイズ: 257.90 MiB

  • データセットサイズ: 885.63 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 3,503,276
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'pl': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
pl文章ストリング

para_crawl/enpt

  • 構成の説明: 英語から pt への翻訳データセット。

  • ダウンロードサイズ: 608.62 MiB

  • データセットサイズ: 2.05 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 8,141,940
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
ポイント文章ストリング

para_crawl/enro

  • 構成の説明: 英語から ro への翻訳データセット。

  • ダウンロードサイズ: 153.24 MiB

  • データセットのサイズ: 534.34 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 1,952,043
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'ro': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
文章ストリング

para_crawl/ensk

  • 構成の説明: 英語から sk への翻訳データセット。

  • ダウンロードサイズ: 96.61 MiB

  • データセットのサイズ: 352.91 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 1,591,831
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'sk': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
sk文章ストリング

para_crawl/ensl

  • 構成の説明: 英語から sl への翻訳データセット。

  • ダウンロードサイズ: 62.02 MiB

  • データセットサイズ: 187.66 MiB

  • 自動キャッシュ(ドキュメント): shuffle_files=Falseの場合のみ (トレーニング)

  • スプリット:

スプリット
'train' 660,161
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'sl': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
sl文章ストリング

para_crawl/ensv

  • 構成の説明: 英語から sv への翻訳データセット。

  • ダウンロードサイズ: 262.76 MiB

  • データセットサイズ: 905.72 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 3,476,729
  • 機能構造:
Translation({
    'en': Text(shape=(), dtype=string),
    'sv': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
翻訳
ja文章ストリング
sv文章ストリング