Tài liệu tham khảo:
wikitext-tl-39
Sử dụng lệnh sau để tải tập dữ liệu này trong TFDS:
ds = tfds.load('huggingface:wikitext_tl39/wikitext-tl-39')
- Sự miêu tả :
Large scale, unlabeled text dataset with 39 Million tokens in the training set. Inspired by the original WikiText Long Term Dependency dataset (Merity et al., 2016). TL means "Tagalog." Originally published in Cruz & Cheng (2019).
- Giấy phép : GPL-3.0
- Phiên bản : 1.0.0
- Chia tách :
Tách ra | Ví dụ |
---|---|
'test' | 376737 |
'train' | 1766072 |
'validation' | 381763 |
- Đặc trưng :
{
"text": {
"dtype": "string",
"id": null,
"_type": "Value"
}
}