الصفحة 19

  • الوصف :

تحتوي مجموعة البيانات هذه على معيار PG-19 لنمذجة اللغة. وهو يتضمن مجموعة من الكتب المستخرجة من مشروع كتب مشروع جوتنبرج ( https://www.gutenberg.org ) ، والتي تم نشرها قبل عام 1919. كما تحتوي على بيانات وصفية لعناوين الكتب وتواريخ النشر. يتجاوز حجم PG-19 ضعف حجم معيار Billion Word ويحتوي على مستندات أطول بمقدار 20 مرة ، في المتوسط ​​، من معيار WikiText لنمذجة اللغة طويلة المدى.

يتم تقسيم الكتب إلى مجموعة قطار والتحقق من الصحة والاختبار. يتم تخزين البيانات الوصفية للكتب في metadata.csv الذي يحتوي على (book_id ، short_book_title ، تاريخ النشر ، رابط_الكتب).

انشق، مزق أمثلة
'test' 100
'train' 28602
'validation' 50
  • هيكل الميزة :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_الكتب موتر int32
رابط_الكتب موتر سلسلة
book_text نص سلسلة
عنوان كتاب موتر سلسلة
تاريخ النشر موتر سلسلة
  • الاقتباس :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
،

  • الوصف :

تحتوي مجموعة البيانات هذه على معيار PG-19 لنمذجة اللغة. وهو يتضمن مجموعة من الكتب المستخرجة من مشروع كتب مشروع جوتنبرج ( https://www.gutenberg.org ) ، والتي تم نشرها قبل عام 1919. كما تحتوي على بيانات وصفية لعناوين الكتب وتواريخ النشر. يتجاوز حجم PG-19 ضعف حجم معيار Billion Word ويحتوي على مستندات أطول بمقدار 20 مرة ، في المتوسط ​​، من معيار WikiText لنمذجة اللغة طويلة المدى.

يتم تقسيم الكتب إلى مجموعة قطار والتحقق من الصحة والاختبار. يتم تخزين البيانات الوصفية للكتب في metadata.csv الذي يحتوي على (book_id ، short_book_title ، تاريخ النشر ، رابط_الكتب).

انشق، مزق أمثلة
'test' 100
'train' 28602
'validation' 50
  • هيكل الميزة :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
معرّف_الكتب موتر int32
رابط_الكتب موتر سلسلة
book_text نص سلسلة
عنوان كتاب موتر سلسلة
تاريخ النشر موتر سلسلة
  • الاقتباس :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}