- 説明:
OPUS は Web から翻訳されたテキストのコレクションです。
独自の構成を作成して、ロードするデータと言語のペアを選択します。
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: http://opus.nlpl.eu/
ソースコード:
tfds.datasets.opus.Builder
バージョン:
-
0.1.0
(デフォルト): リリース ノートはありません。
-
機能構造:
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
翻訳 | ||||
で | 文章 | ストリング | ||
ja | 文章 | ストリング |
監視されたキー(
as_supervised
docを参照):('de', 'en')
図( tfds.show_examples ): サポートされていません。
引用:
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus/medical (デフォルト設定)
構成の説明: 医療文書
ダウンロードサイズ:
34.29 MiB
データセットサイズ:
188.85 MiB
自動キャッシュ(ドキュメント):
shuffle_files=False
の場合のみ (トレーニング)スプリット:
スプリット | 例 |
---|---|
'train' | 1,108,752 |
- 例( tfds.as_dataframe ):
作品/法律
構成の説明: 法律文書
ダウンロードサイズ:
46.99 MiB
データセットのサイズ:
214.44 MiB
自動キャッシュ(ドキュメント):
shuffle_files=False
の場合のみ (トレーニング)スプリット:
スプリット | 例 |
---|---|
'train' | 719,372 |
- 例( tfds.as_dataframe ):
オーパス/コーラン
構成の説明: コーラン文書
ダウンロードサイズ:
35.42 MiB
データセットのサイズ:
117.54 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'train' | 537,128 |
- 例( tfds.as_dataframe ):
作品/IT
構成の説明: IT ドキュメント
ダウンロードサイズ:
10.33 MiB
データセットサイズ:
42.51 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'train' | 347,817 |
- 例( tfds.as_dataframe ):
作品/字幕
構成の説明: 字幕ドキュメント
ダウンロードサイズ:
677.64 MiB
データセットサイズ:
2.01 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'train' | 22,512,639 |
- 例( tfds.as_dataframe ):