- विवरण :
इस डेटासेट में PG-19 भाषा मॉडलिंग बेंचमार्क शामिल है। इसमें प्रोजेक्ट गुटेनबर्ग बुक्स प्रोजेक्ट ( https://www.gutenberg.org ) से निकाली गई पुस्तकों का एक सेट शामिल है, जो 1919 से पहले प्रकाशित हुई थीं। इसमें पुस्तक के शीर्षक और प्रकाशन तिथियों का मेटाडेटा भी शामिल है। PG-19 बिलियन वर्ड बेंचमार्क के आकार से दोगुने से अधिक है और इसमें ऐसे दस्तावेज़ शामिल हैं जो विकीटेक्स्ट लॉन्ग-रेंज लैंग्वेज मॉडलिंग बेंचमार्क की तुलना में औसतन 20 गुना लंबे हैं।
पुस्तकों को ट्रेन, सत्यापन और परीक्षण सेट में विभाजित किया गया है। पुस्तकों का मेटाडेटा मेटाडेटा.सीएसवी में संग्रहीत होता है जिसमें (book_id, short_book_title, public_date, book_link) शामिल होता है।
होमपेज : https://github.com/deepmind/pg19
स्रोत कोड :
tfds.datasets.pg19.Builder
संस्करण :
-
0.1.1
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
Unknown size
डेटासेट का आकार :
10.94 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- फ़ीचर संरचना :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
book_id | टेन्सर | int32 | ||
book_link | टेन्सर | डोरी | ||
book_text | मूलपाठ | डोरी | ||
पुस्तक का शीर्षक | टेन्सर | डोरी | ||
प्रकाशन तिथि | टेन्सर | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - विवरण :
इस डेटासेट में PG-19 भाषा मॉडलिंग बेंचमार्क शामिल है। इसमें प्रोजेक्ट गुटेनबर्ग बुक्स प्रोजेक्ट ( https://www.gutenberg.org ) से निकाली गई पुस्तकों का एक सेट शामिल है, जो 1919 से पहले प्रकाशित हुई थीं। इसमें पुस्तक के शीर्षक और प्रकाशन तिथियों का मेटाडेटा भी शामिल है। PG-19 बिलियन वर्ड बेंचमार्क के आकार से दोगुने से अधिक है और इसमें ऐसे दस्तावेज़ शामिल हैं जो विकीटेक्स्ट लॉन्ग-रेंज लैंग्वेज मॉडलिंग बेंचमार्क की तुलना में औसतन 20 गुना लंबे हैं।
पुस्तकों को ट्रेन, सत्यापन और परीक्षण सेट में विभाजित किया गया है। पुस्तकों का मेटाडेटा मेटाडेटा.सीएसवी में संग्रहीत होता है जिसमें (book_id, short_book_title, public_date, book_link) शामिल होता है।
होमपेज : https://github.com/deepmind/pg19
स्रोत कोड :
tfds.datasets.pg19.Builder
संस्करण :
-
0.1.1
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
डाउनलोड आकार :
Unknown size
डेटासेट का आकार :
10.94 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- फ़ीचर संरचना :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
book_id | टेन्सर | int32 | ||
book_link | टेन्सर | डोरी | ||
book_text | मूलपाठ | डोरी | ||
पुस्तक का शीर्षक | टेन्सर | डोरी | ||
प्रकाशन तिथि | टेन्सर | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}