- 説明:
ページの 40 以上の Wikipedia 言語版のクリーンアップ テキストがエンティティに対応します。データセットには、言語ごとにトレーニング/開発/テストが分割されています。データセットはページ フィルタリングによってクリーンアップされ、曖昧さ回避ページ、リダイレクト ページ、削除されたページ、および非エンティティ ページが削除されます。各例には、エンティティの wikidata ID と、非コンテンツ セクションと構造化オブジェクトを削除するページ処理後の完全な Wikipedia 記事が含まれています。このコーパスでトレーニングされた言語モデル (41 の単言語モデルと 2 つの多言語モデルを含む) は、 https://tfhub.dev/google/collections/wiki40b-lm/1で見つけることができます。
追加ドキュメント:コード付きの論文について調べる
ソースコード:
tfds.text.Wiki40b
バージョン:
-
1.3.0
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ:
Unknown size
機能の構造:
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- 機能ドキュメント:
特徴 | クラス | 形 | Dタイプ | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
文章 | 文章 | 弦 | ||
バージョンID | 文章 | 弦 | ||
ウィキデータID | 文章 | 弦 |
監視キー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
引用:
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (デフォルト設定)
構成の説明: en 用の Wiki40B データセット。
データセットのサイズ:
9.91 GiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 162,274 |
'train' | 2,926,536 |
'validation' | 163,597 |
- 例( tfds.as_dataframe ):
wiki40b/ar
構成の説明: ar 用の Wiki40B データセット。
データセットのサイズ:
833.20 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 12,271 |
'train' | 220,885 |
'validation' | 12,198 |
- 例( tfds.as_dataframe ):
wiki40b/zh-cn
構成の説明: zh-cn の Wiki40B データセット。
データセットのサイズ:
985.53 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 30,355 |
'train' | 549,672 |
'validation' | 30,299 |
- 例( tfds.as_dataframe ):
wiki40b/zh-tw
構成の説明: zh-tw 用の Wiki40B データセット。
データセットのサイズ:
986.45 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 30,670 |
'train' | 552,031 |
'validation' | 30,739 |
- 例( tfds.as_dataframe ):
wiki40b/nl
構成の説明: nl の Wiki40B データセット。
データセットのサイズ:
961.82 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 24,776 |
'train' | 447,555 |
'validation' | 25,201 |
- 例( tfds.as_dataframe ):
ウィキ40b/フランス
構成の説明: fr の Wiki40B データセット。
データセットのサイズ:
3.37 GiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 68,004 |
'train' | 1,227,206 |
'validation' | 68,655 |
- 例( tfds.as_dataframe ):
wiki40b/de
構成の説明: de 用の Wiki40B データセット。
データセットのサイズ:
4.78 GiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 86,594 |
'train' | 1,554,910 |
'validation' | 86,068 |
- 例( tfds.as_dataframe ):
wiki40b/それ
構成の説明: Wiki40B データセット。
データセットのサイズ:
2.00 GiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 40,443 |
'train' | 732,609 |
'validation' | 40,684 |
- 例( tfds.as_dataframe ):
wiki40b/ja
構成の説明: ja 用の Wiki40B データセット。
データセットのサイズ:
2.19 GiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 41,268 |
'train' | 745,392 |
'validation' | 41,576 |
- 例( tfds.as_dataframe ):
wiki40b/ko
構成の説明: ko の Wiki40B データセット。
データセットのサイズ:
453.98 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 10,802 |
'train' | 194,977 |
'validation' | 10,805 |
- 例( tfds.as_dataframe ):
wiki40b/pl
構成の説明: pl 用の Wiki40B データセット。
データセットのサイズ:
1.03 GiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 27,987 |
'train' | 505,191 |
'validation' | 28,310 |
- 例( tfds.as_dataframe ):
ウィキ40b/ポイント
構成の説明: pt の Wiki40B データセット。
データセットのサイズ:
1.08 GiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 22,693 |
'train' | 406,507 |
'validation' | 22,301 |
- 例( tfds.as_dataframe ):
wiki40b/ru
構成の説明: ru 用の Wiki40B データセット。
データセットのサイズ:
4.13 GiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 51,885 |
'train' | 926,037 |
'validation' | 51,287 |
- 例( tfds.as_dataframe ):
wiki40b/es
構成の説明: ES 用の Wiki40B データセット。
データセットのサイズ:
2.70 GiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 48,764 |
'train' | 872,541 |
'validation' | 48,592 |
- 例( tfds.as_dataframe ):
wiki40b/th
構成の説明: の Wiki40B データセット。
データセットのサイズ:
326.29 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 3,114 |
'train' | 56,798 |
'validation' | 3,093 |
- 例( tfds.as_dataframe ):
ウィキ40b/tr
構成の説明: tr 用の Wiki40B データセット。
データセットのサイズ:
308.87 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 7,890 |
'train' | 142,576 |
'validation' | 7,845 |
- 例( tfds.as_dataframe ):
wiki40b/bg
構成の説明: bg 用の Wiki40B データセット。
データセットのサイズ:
433.20 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 7,289 |
'train' | 130,670 |
'validation' | 7,259 |
- 例( tfds.as_dataframe ):
wiki40b/ca
構成の説明: 約 1 年間の Wiki40B データセット
データセットのサイズ:
753.00 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 15,568 |
'train' | 277,313 |
'validation' | 15,362 |
- 例( tfds.as_dataframe ):
wiki40b/cs
構成の説明: cs 用の Wiki40B データセット。
データセットのサイズ:
631.84 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 12,984 |
'train' | 235,971 |
'validation' | 13,096 |
- 例( tfds.as_dataframe ):
wiki40b/da
構成の説明: da 用の Wiki40B データセット。
データセットのサイズ:
240.51 MiB
自動キャッシュ(ドキュメント): はい (テスト、検証)、
shuffle_files=False
の場合のみ (トレーニング)分割:
スプリット | 例 |
---|---|
'test' | 6,219 |
'train' | 109,486 |
'validation' | 6,173 |
- 例( tfds.as_dataframe ):
wiki40b/el
構成の説明: el の Wiki40B データセット。
データセットのサイズ:
524.77 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 5,261 |
'train' | 93,596 |
'validation' | 5,130 |
- 例( tfds.as_dataframe ):
wiki40b/et
構成の説明: et 用の Wiki40B データセット。
データセットのサイズ:
184.07 MiB
自動キャッシュ(ドキュメント): はい (テスト、検証)、
shuffle_files=False
の場合のみ (トレーニング)分割:
スプリット | 例 |
---|---|
'test' | 6,205 |
'train' | 114,464 |
'validation' | 6,351 |
- 例( tfds.as_dataframe ):
wiki40b/fa
構成の説明: fa 用の Wiki40B データセット。
データセットのサイズ:
482.55 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 11,262 |
'train' | 203,145 |
'validation' | 11,180 |
- 例( tfds.as_dataframe ):
ウィキ40b/fi
構成の説明: fi の Wiki40B データセット。
データセットのサイズ:
534.13 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 14,179 |
'train' | 255,822 |
'validation' | 13,962 |
- 例( tfds.as_dataframe ):
wiki40b/彼
構成の説明: 彼のための Wiki40B データセット。
データセットのサイズ:
869.51 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 9,344 |
'train' | 165,359 |
'validation' | 9,231 |
- 例( tfds.as_dataframe ):
wiki40b/こんにちは
構成の説明: こんにちは、Wiki40B データセットです。
データセットのサイズ:
277.56 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 2,643 |
'train' | 45,737 |
'validation' | 2,596 |
- 例( tfds.as_dataframe ):
wiki40b/時
構成の説明: 時間用の Wiki40B データセット。
データセットのサイズ:
235.58 MiB
自動キャッシュ(ドキュメント): はい (テスト、検証)、
shuffle_files=False
の場合のみ (トレーニング)分割:
スプリット | 例 |
---|---|
'test' | 5,724 |
'train' | 103,857 |
'validation' | 5,792 |
- 例( tfds.as_dataframe ):
wiki40b/hu
構成の説明: hu 用の Wiki40B データセット。
データセットのサイズ:
634.25 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 15,258 |
'train' | 273,248 |
'validation' | 15,208 |
- 例( tfds.as_dataframe ):
wiki40b/id
構成の説明: ID の Wiki40B データセット。
データセットのサイズ:
334.06 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 8,598 |
'train' | 156,255 |
'validation' | 8,714 |
- 例( tfds.as_dataframe ):
wiki40b/lt
構成の説明: lt 用の Wiki40B データセット。
データセットのサイズ:
140.46 MiB
自動キャッシュ(ドキュメント): はい
分割:
スプリット | 例 |
---|---|
'test' | 4,683 |
'train' | 84,854 |
'validation' | 4,754 |
- 例( tfds.as_dataframe ):
wiki40b/lv
構成の説明: lv 用の Wiki40B データセット。
データセットのサイズ:
80.07 MiB
自動キャッシュ(ドキュメント): はい
分割:
スプリット | 例 |
---|---|
'test' | 1,932 |
'train' | 33,064 |
'validation' | 1,857 |
- 例( tfds.as_dataframe ):
wiki40b/ms
構成の説明: ms 用の Wiki40B データセット。
データセットのサイズ:
142.49 MiB
自動キャッシュ(ドキュメント): はい (テスト、検証)、
shuffle_files=False
の場合のみ (トレーニング)分割:
スプリット | 例 |
---|---|
'test' | 5,235 |
'train' | 97,509 |
'validation' | 5,357 |
- 例( tfds.as_dataframe ):
wiki40b/いいえ
構成の説明: No. の Wiki40B データセット。
データセットのサイズ:
382.03 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 10,588 |
'train' | 190,588 |
'validation' | 10,547 |
- 例( tfds.as_dataframe ):
wiki40b/ro
構成の説明: ro 用の Wiki40B データセット。
データセットのサイズ:
319.68 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 7,870 |
'train' | 139,615 |
'validation' | 7,624 |
- 例( tfds.as_dataframe ):
wiki40b/sk
構成の説明: sk の Wiki40B データセット。
データセットのサイズ:
170.20 MiB
自動キャッシュ(ドキュメント): はい (テスト、検証)、
shuffle_files=False
の場合のみ (トレーニング)分割:
スプリット | 例 |
---|---|
'test' | 5,741 |
'train' | 103,095 |
'validation' | 5,604 |
- 例( tfds.as_dataframe ):
ウィキ40b/sl
構成の説明: sl の Wiki40B データセット。
データセットのサイズ:
157.38 MiB
自動キャッシュ(ドキュメント): はい (テスト、検証)、
shuffle_files=False
の場合のみ (トレーニング)分割:
スプリット | 例 |
---|---|
'test' | 3,341 |
'train' | 60,927 |
'validation' | 3,287 |
- 例( tfds.as_dataframe ):
wiki40b/sr
構成の説明: sr の Wiki40B データセット。
データセットのサイズ:
582.20 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 17,997 |
'train' | 327,313 |
'validation' | 18,100 |
- 例( tfds.as_dataframe ):
wiki40b/sv
構成の説明: SV 用の Wiki40B データセット。
データセットのサイズ:
613.62 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 22,291 |
'train' | 400,742 |
'validation' | 22,263 |
- 例( tfds.as_dataframe ):
ウィキ40b/tl
構成の説明: tl 用の Wiki40B データセット。
データセットのサイズ:
29.04 MiB
自動キャッシュ(ドキュメント): はい
分割:
スプリット | 例 |
---|---|
'test' | 1,446 |
'train' | 25,940 |
'validation' | 1,472 |
- 例( tfds.as_dataframe ):
wiki40b/英国
構成の説明: 英国の Wiki40B データセット。
データセットのサイズ:
1.67 GiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 26,581 |
'train' | 477,618 |
'validation' | 26,324 |
- 例( tfds.as_dataframe ):
wiki40b/vi
構成の説明: vi 用の Wiki40B データセット。
データセットのサイズ:
497.70 MiB
自動キャッシュ(ドキュメント): いいえ
分割:
スプリット | 例 |
---|---|
'test' | 7,942 |
'train' | 146,255 |
'validation' | 8,195 |
- 例( tfds.as_dataframe ):