ウィキテキスト_tl39

参考文献:

ウィキテキスト-tl-39

次のコマンドを使用して、このデータセットを TFDS にロードします。

ds = tfds.load('huggingface:wikitext_tl39/wikitext-tl-39')
  • 説明
Large scale, unlabeled text dataset with 39 Million tokens in the training set. Inspired by the original WikiText Long Term Dependency dataset (Merity et al., 2016). TL means "Tagalog." Originally published in Cruz & Cheng (2019).
  • ライセンス: GPL-3.0
  • バージョン: 1.0.0
  • 分割:
スプリット
'test' 376737
'train' 1766072
'validation' 381763
  • 特徴
{
    "text": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    }
}