- Açıklama :
Bu veri kümesi, PG-19 dil modelleme karşılaştırmasını içerir. 1919'dan önce yayınlanan Project Gutenberg kitaplar projesinden ( https://www.gutenberg.org ) çıkarılan bir dizi kitabı içerir. Ayrıca kitap başlıkları ve yayın tarihlerinin meta verilerini içerir. PG-19, Billion Word karşılaştırma ölçütünün boyutunun iki katından fazladır ve WikiText uzun vadeli dil modelleme ölçütünden ortalama 20 kat daha uzun belgeler içerir.
Kitaplar bir tren, doğrulama ve test setine bölünmüştür. Kitapların meta verileri, (book_id, short_book_title, yayın_tarihi, kitap_bağlantısı) içeren metadata.csv'de depolanır.
Anasayfa : https://github.com/deepmind/pg19
Kaynak kodu :
tfds.datasets.pg19.Builder
sürümler :
-
0.1.1
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
10.94 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 100 |
'train' | 28.602 |
'validation' | 50 |
- Özellik yapısı :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
kitap_kimliği | tensör | int32 | ||
kitap_bağlantısı | tensör | sicim | ||
kitap_metni | Metin | sicim | ||
kitap başlığı | tensör | sicim | ||
yayın tarihi | tensör | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - Açıklama :
Bu veri kümesi, PG-19 dil modelleme karşılaştırmasını içerir. 1919'dan önce yayınlanan Project Gutenberg kitaplar projesinden ( https://www.gutenberg.org ) çıkarılan bir dizi kitabı içerir. Ayrıca kitap başlıkları ve yayın tarihlerinin meta verilerini içerir. PG-19, Billion Word karşılaştırma ölçütünün boyutunun iki katından fazladır ve WikiText uzun vadeli dil modelleme ölçütünden ortalama 20 kat daha uzun belgeler içerir.
Kitaplar bir tren, doğrulama ve test setine bölünmüştür. Kitapların meta verileri, (book_id, short_book_title, yayın_tarihi, kitap_bağlantısı) içeren metadata.csv'de depolanır.
Anasayfa : https://github.com/deepmind/pg19
Kaynak kodu :
tfds.datasets.pg19.Builder
sürümler :
-
0.1.1
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
10.94 GiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 100 |
'train' | 28.602 |
'validation' | 50 |
- Özellik yapısı :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
kitap_kimliği | tensör | int32 | ||
kitap_bağlantısı | tensör | sicim | ||
kitap_metni | Metin | sicim | ||
kitap başlığı | tensör | sicim | ||
yayın tarihi | tensör | sicim |
Denetlenen anahtarlar (Bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):
- Alıntı :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}