- الوصف :
تحتوي مجموعة البيانات هذه على معيار PG-19 لنمذجة اللغة. وهو يتضمن مجموعة من الكتب المستخرجة من مشروع كتب مشروع جوتنبرج ( https://www.gutenberg.org ) ، والتي تم نشرها قبل عام 1919. كما تحتوي على بيانات وصفية لعناوين الكتب وتواريخ النشر. يتجاوز حجم PG-19 ضعف حجم معيار Billion Word ويحتوي على مستندات أطول بمقدار 20 مرة ، في المتوسط ، من معيار WikiText لنمذجة اللغة طويلة المدى.
يتم تقسيم الكتب إلى مجموعة قطار والتحقق من الصحة والاختبار. يتم تخزين البيانات الوصفية للكتب في metadata.csv الذي يحتوي على (book_id ، short_book_title ، تاريخ النشر ، رابط_الكتب).
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/deepmind/pg19
كود المصدر :
tfds.datasets.pg19.Builder
إصدارات :
-
0.1.1
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التنزيل :
Unknown size
حجم مجموعة البيانات :
10.94 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 100 |
'train' | 28602 |
'validation' | 50 |
- هيكل الميزة :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
معرّف_الكتب | موتر | int32 | ||
رابط_الكتب | موتر | سلسلة | ||
book_text | نص | سلسلة | ||
عنوان كتاب | موتر | سلسلة | ||
تاريخ النشر | موتر | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
، - الوصف :
تحتوي مجموعة البيانات هذه على معيار PG-19 لنمذجة اللغة. وهو يتضمن مجموعة من الكتب المستخرجة من مشروع كتب مشروع جوتنبرج ( https://www.gutenberg.org ) ، والتي تم نشرها قبل عام 1919. كما تحتوي على بيانات وصفية لعناوين الكتب وتواريخ النشر. يتجاوز حجم PG-19 ضعف حجم معيار Billion Word ويحتوي على مستندات أطول بمقدار 20 مرة ، في المتوسط ، من معيار WikiText لنمذجة اللغة طويلة المدى.
يتم تقسيم الكتب إلى مجموعة قطار والتحقق من الصحة والاختبار. يتم تخزين البيانات الوصفية للكتب في metadata.csv الذي يحتوي على (book_id ، short_book_title ، تاريخ النشر ، رابط_الكتب).
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://github.com/deepmind/pg19
كود المصدر :
tfds.datasets.pg19.Builder
إصدارات :
-
0.1.1
(افتراضي): لا توجد ملاحظات حول الإصدار.
-
حجم التنزيل :
Unknown size
حجم مجموعة البيانات :
10.94 GiB
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'test' | 100 |
'train' | 28602 |
'validation' | 50 |
- هيكل الميزة :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
معرّف_الكتب | موتر | int32 | ||
رابط_الكتب | موتر | سلسلة | ||
book_text | نص | سلسلة | ||
عنوان كتاب | موتر | سلسلة | ||
تاريخ النشر | موتر | سلسلة |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):
- الاقتباس :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}