- 説明:
ヨーロッパの公用語用の Web スケールの対訳コーパス。
追加のドキュメント:コード を使用したペーパーの探索
ソース コード:
tfds.datasets.para_crawl.Builder
バージョン:
-
1.2.0
(デフォルト): リリース ノートはありません。
-
図( tfds.show_examples ): サポートされていません。
引用:
@misc {paracrawl,
title = "ParaCrawl",
year = "2018",
url = "http://paracrawl.eu/download.html."
}
para_crawl/enbg (デフォルト設定)
構成の説明: 英語から bg への翻訳データセット。
ダウンロードサイズ:
98.94 MiB
データセットサイズ:
362.46 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 1,039,885 |
- 機能構造:
Translation({
'bg': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
BG | 文章 | ストリング | ||
ja | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'bg')
例( tfds.as_dataframe ):
para_crawl/encs
構成の説明: 英語から cs への翻訳データセット。
ダウンロードサイズ:
187.31 MiB
データセットサイズ:
666.34 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 2,981,949 |
- 機能構造:
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
cs | 文章 | ストリング | ||
ja | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'cs')
例( tfds.as_dataframe ):
para_crawl/エンダ
構成の説明: 英語から da への翻訳データセット。
ダウンロードサイズ:
174.34 MiB
データセットのサイズ:
619.77 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 2,414,895 |
- 機能構造:
Translation({
'da': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ダ | 文章 | ストリング | ||
ja | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'da')
例( tfds.as_dataframe ):
para_crawl/エンデ
構成の説明: 英語から de への翻訳データセット。
ダウンロードサイズ:
1.22 GiB
データセットサイズ:
4.04 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 16,264,448 |
- 機能構造:
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
で | 文章 | ストリング | ||
ja | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'de')
例( tfds.as_dataframe ):
para_crawl/enel
構成の説明: 英語から el への翻訳データセット。
ダウンロードサイズ:
184.59 MiB
データセットサイズ:
698.75 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 1,985,233 |
- 機能構造:
Translation({
'el': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
エル | 文章 | ストリング | ||
ja | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'el')
例( tfds.as_dataframe ):
para_crawl/enes
構成の説明: 英語から es への翻訳データセット。
ダウンロードサイズ:
1.82 GiB
データセットサイズ:
6.23 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 21,987,267 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'es': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
エス | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'es')
例( tfds.as_dataframe ):
para_crawl/enet
構成の説明: 英語から et への翻訳データセット。
ダウンロードサイズ:
66.91 MiB
データセットサイズ:
209.16 MiB
自動キャッシュ(ドキュメント):
shuffle_files=False
の場合のみ (トレーニング)スプリット:
スプリット | 例 |
---|---|
'train' | 853,422 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'et': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
ら | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'et')
例( tfds.as_dataframe ):
para_crawl/enfi
構成の説明: 英語から fi への翻訳データセット。
ダウンロードサイズ:
151.83 MiB
データセットのサイズ:
543.85 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 2,156,069 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
フィ | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'fi')
例( tfds.as_dataframe ):
para_crawl/enfr
構成の説明: 英語から fr への翻訳データセット。
ダウンロードサイズ:
2.63 GiB
データセットサイズ:
9.04 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 31,374,161 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
フランス | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'fr')
例( tfds.as_dataframe ):
para_crawl/enga
構成の説明: 英語から ga への翻訳データセット。
ダウンロードサイズ:
28.03 MiB
データセットのサイズ:
107.09 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'train' | 357,399 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'ga': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
が | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'ga')
例( tfds.as_dataframe ):
para_crawl/enhr
構成の説明: 英語から時間への翻訳データセット。
ダウンロードサイズ:
80.97 MiB
データセットサイズ:
256.37 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 1,002,053 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'hr': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
時間 | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'hr')
例( tfds.as_dataframe ):
para_crawl/enhu
構成の説明: 英語から hu への翻訳データセット。
ダウンロードサイズ:
114.24 MiB
データセットサイズ:
421.40 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 1,901,342 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'hu': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
フ | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'hu')
例( tfds.as_dataframe ):
para_crawl/enit
構成の説明: 英語から英語への翻訳データセット。
ダウンロードサイズ:
1017.30 MiB
データセットサイズ:
3.36 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 12,162,239 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'it': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
それ | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'it')
例( tfds.as_dataframe ):
para_crawl/enlt
構成の説明: 英語から lt への翻訳データセット。
ダウンロードサイズ:
63.28 MiB
データセットのサイズ:
204.70 MiB
自動キャッシュ(ドキュメント):
shuffle_files=False
の場合のみ (トレーニング)スプリット:
スプリット | 例 |
---|---|
'train' | 844,643 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'lt': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
それ | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'lt')
例( tfds.as_dataframe ):
para_crawl/enlv
構成の説明: 英語から lv への翻訳データセット。
ダウンロードサイズ:
45.17 MiB
データセットサイズ:
147.09 MiB
自動キャッシュ(ドキュメント):
shuffle_files=False
の場合のみ (トレーニング)スプリット:
スプリット | 例 |
---|---|
'train' | 553,060 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
LV | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'lv')
例( tfds.as_dataframe ):
para_crawl/enmt
構成の説明: 英語から mt への翻訳データセット。
ダウンロードサイズ:
18.15 MiB
データセットサイズ:
54.36 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'train' | 195,502 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'mt': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
mt | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'mt')
例( tfds.as_dataframe ):
para_crawl/ennl
構成の説明: 英語から nl への翻訳データセット。
ダウンロードサイズ:
400.63 MiB
データセットサイズ:
1.40 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 5,659,268 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'nl': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
nl | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'nl')
例( tfds.as_dataframe ):
para_crawl/enpl
構成の説明: 英語から pl への翻訳データセット。
ダウンロードサイズ:
257.90 MiB
データセットサイズ:
885.63 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 3,503,276 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'pl': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
pl | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'pl')
例( tfds.as_dataframe ):
para_crawl/enpt
構成の説明: 英語から pt への翻訳データセット。
ダウンロードサイズ:
608.62 MiB
データセットサイズ:
2.05 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 8,141,940 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
ポイント | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'pt')
例( tfds.as_dataframe ):
para_crawl/enro
構成の説明: 英語から ro への翻訳データセット。
ダウンロードサイズ:
153.24 MiB
データセットのサイズ:
534.34 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 1,952,043 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'ro': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
ロ | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'ro')
例( tfds.as_dataframe ):
para_crawl/ensk
構成の説明: 英語から sk への翻訳データセット。
ダウンロードサイズ:
96.61 MiB
データセットのサイズ:
352.91 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 1,591,831 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'sk': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
sk | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'sk')
例( tfds.as_dataframe ):
para_crawl/ensl
構成の説明: 英語から sl への翻訳データセット。
ダウンロードサイズ:
62.02 MiB
データセットサイズ:
187.66 MiB
自動キャッシュ(ドキュメント):
shuffle_files=False
の場合のみ (トレーニング)スプリット:
スプリット | 例 |
---|---|
'train' | 660,161 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'sl': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
sl | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'sl')
例( tfds.as_dataframe ):
para_crawl/ensv
構成の説明: 英語から sv への翻訳データセット。
ダウンロードサイズ:
262.76 MiB
データセットサイズ:
905.72 MiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 3,476,729 |
- 機能構造:
Translation({
'en': Text(shape=(), dtype=string),
'sv': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
ja | 文章 | ストリング | ||
sv | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('en', 'sv')
例( tfds.as_dataframe ):