- توضیحات :
این مجموعه داده شامل معیار مدل سازی زبان PG-19 است. این شامل مجموعهای از کتابهای استخراجشده از پروژه کتابهای پروژه گوتنبرگ ( https://www.gutenberg.org ) است که قبل از سال 1919 منتشر شدهاند. همچنین حاوی فراداده عناوین کتاب و تاریخ انتشار است. PG-19 بیش از دو برابر اندازه معیار Billion Word است و حاوی اسنادی است که به طور متوسط 20 برابر طولانی تر از معیار مدل سازی زبان برد بلند WikiText هستند.
کتاب ها به یک مجموعه قطار، اعتبار سنجی و تست تقسیم می شوند. فراداده کتابها در metadata.csv ذخیره میشود که حاوی (book_id، short_book_title، publication_date، book_link) است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/deepmind/pg19
کد منبع :
tfds.datasets.pg19.Builder
نسخه ها :
-
0.1.1
(پیش فرض): بدون یادداشت انتشار.
-
اندازه دانلود :
Unknown size
حجم مجموعه داده :
10.94 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 100 |
'train' | 28602 |
'validation' | 50 |
- ساختار ویژگی :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
book_id | تانسور | int32 | ||
پیوند_کتاب | تانسور | رشته | ||
کتاب_متن | متن | رشته | ||
عنوان کتاب | تانسور | رشته | ||
تاریخ انتشار | تانسور | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
، - توضیحات :
این مجموعه داده شامل معیار مدل سازی زبان PG-19 است. این شامل مجموعهای از کتابهای استخراجشده از پروژه کتابهای پروژه گوتنبرگ ( https://www.gutenberg.org ) است که قبل از سال 1919 منتشر شدهاند. همچنین حاوی فراداده عناوین کتاب و تاریخ انتشار است. PG-19 بیش از دو برابر اندازه معیار Billion Word است و حاوی اسنادی است که به طور متوسط 20 برابر طولانی تر از معیار مدل سازی زبان برد بلند WikiText هستند.
کتاب ها به یک مجموعه قطار، اعتبار سنجی و تست تقسیم می شوند. فراداده کتابها در metadata.csv ذخیره میشود که حاوی (book_id، short_book_title، publication_date، book_link) است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/deepmind/pg19
کد منبع :
tfds.datasets.pg19.Builder
نسخه ها :
-
0.1.1
(پیش فرض): بدون یادداشت انتشار.
-
اندازه دانلود :
Unknown size
حجم مجموعه داده :
10.94 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 100 |
'train' | 28602 |
'validation' | 50 |
- ساختار ویژگی :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
book_id | تانسور | int32 | ||
پیوند_کتاب | تانسور | رشته | ||
کتاب_متن | متن | رشته | ||
عنوان کتاب | تانسور | رشته | ||
تاریخ انتشار | تانسور | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}