पीजी19

  • विवरण :

इस डेटासेट में PG-19 भाषा मॉडलिंग बेंचमार्क शामिल है। इसमें प्रोजेक्ट गुटेनबर्ग बुक्स प्रोजेक्ट ( https://www.gutenberg.org ) से निकाली गई पुस्तकों का एक सेट शामिल है, जो 1919 से पहले प्रकाशित हुई थीं। इसमें पुस्तक के शीर्षक और प्रकाशन तिथियों का मेटाडेटा भी शामिल है। PG-19 बिलियन वर्ड बेंचमार्क के आकार से दोगुने से अधिक है और इसमें ऐसे दस्तावेज़ शामिल हैं जो विकीटेक्स्ट लॉन्ग-रेंज लैंग्वेज मॉडलिंग बेंचमार्क की तुलना में औसतन 20 गुना लंबे हैं।

पुस्तकों को ट्रेन, सत्यापन और परीक्षण सेट में विभाजित किया गया है। पुस्तकों का मेटाडेटा मेटाडेटा.सीएसवी में संग्रहीत होता है जिसमें (book_id, short_book_title, public_date, book_link) शामिल होता है।

विभाजित करना उदाहरण
'test' 100
'train' 28,602
'validation' 50
  • फ़ीचर संरचना :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
book_id टेन्सर int32
book_link टेन्सर डोरी
book_text मूलपाठ डोरी
पुस्तक का शीर्षक टेन्सर डोरी
प्रकाशन तिथि टेन्सर डोरी
  • उद्धरण :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
,

  • विवरण :

इस डेटासेट में PG-19 भाषा मॉडलिंग बेंचमार्क शामिल है। इसमें प्रोजेक्ट गुटेनबर्ग बुक्स प्रोजेक्ट ( https://www.gutenberg.org ) से निकाली गई पुस्तकों का एक सेट शामिल है, जो 1919 से पहले प्रकाशित हुई थीं। इसमें पुस्तक के शीर्षक और प्रकाशन तिथियों का मेटाडेटा भी शामिल है। PG-19 बिलियन वर्ड बेंचमार्क के आकार से दोगुने से अधिक है और इसमें ऐसे दस्तावेज़ शामिल हैं जो विकीटेक्स्ट लॉन्ग-रेंज लैंग्वेज मॉडलिंग बेंचमार्क की तुलना में औसतन 20 गुना लंबे हैं।

पुस्तकों को ट्रेन, सत्यापन और परीक्षण सेट में विभाजित किया गया है। पुस्तकों का मेटाडेटा मेटाडेटा.सीएसवी में संग्रहीत होता है जिसमें (book_id, short_book_title, public_date, book_link) शामिल होता है।

विभाजित करना उदाहरण
'test' 100
'train' 28,602
'validation' 50
  • फ़ीचर संरचना :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
book_id टेन्सर int32
book_link टेन्सर डोरी
book_text मूलपाठ डोरी
पुस्तक का शीर्षक टेन्सर डोरी
प्रकाशन तिथि टेन्सर डोरी
  • उद्धरण :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}