pg19

  • Açıklama :

Bu veri kümesi, PG-19 dil modelleme karşılaştırmasını içerir. 1919'dan önce yayınlanan Project Gutenberg kitaplar projesinden ( https://www.gutenberg.org ) çıkarılan bir dizi kitabı içerir. Ayrıca kitap başlıkları ve yayın tarihlerinin meta verilerini içerir. PG-19, Billion Word karşılaştırma ölçütünün boyutunun iki katından fazladır ve WikiText uzun vadeli dil modelleme ölçütünden ortalama 20 kat daha uzun belgeler içerir.

Kitaplar bir tren, doğrulama ve test setine bölünmüştür. Kitapların meta verileri, (book_id, short_book_title, yayın_tarihi, kitap_bağlantısı) içeren metadata.csv'de depolanır.

Bölmek örnekler
'test' 100
'train' 28.602
'validation' 50
  • Özellik yapısı :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
kitap_kimliği tensör int32
kitap_bağlantısı tensör sicim
kitap_metni Metin sicim
kitap başlığı tensör sicim
yayın tarihi tensör sicim
  • Alıntı :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
,

  • Açıklama :

Bu veri kümesi, PG-19 dil modelleme karşılaştırmasını içerir. 1919'dan önce yayınlanan Project Gutenberg kitaplar projesinden ( https://www.gutenberg.org ) çıkarılan bir dizi kitabı içerir. Ayrıca kitap başlıkları ve yayın tarihlerinin meta verilerini içerir. PG-19, Billion Word karşılaştırma ölçütünün boyutunun iki katından fazladır ve WikiText uzun vadeli dil modelleme ölçütünden ortalama 20 kat daha uzun belgeler içerir.

Kitaplar bir tren, doğrulama ve test setine bölünmüştür. Kitapların meta verileri, (book_id, short_book_title, yayın_tarihi, kitap_bağlantısı) içeren metadata.csv'de depolanır.

Bölmek örnekler
'test' 100
'train' 28.602
'validation' 50
  • Özellik yapısı :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
kitap_kimliği tensör int32
kitap_bağlantısı tensör sicim
kitap_metni Metin sicim
kitap başlığı tensör sicim
yayın tarihi tensör sicim
  • Alıntı :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}