pg19

  • বর্ণনা :

এই ডেটাসেটে PG-19 ভাষার মডেলিং বেঞ্চমার্ক রয়েছে। এটিতে প্রোজেক্ট গুটেনবার্গ বই প্রকল্প ( https://www.gutenberg.org ) থেকে প্রাপ্ত বইগুলির একটি সেট অন্তর্ভুক্ত রয়েছে যা 1919 সালের আগে প্রকাশিত হয়েছিল। এতে বইয়ের শিরোনাম এবং প্রকাশনার তারিখগুলির মেটাডেটাও রয়েছে। PG-19 বিলিয়ন ওয়ার্ড বেঞ্চমার্কের দ্বিগুণ আকারের এবং এতে ডকুমেন্ট রয়েছে যা WikiText দীর্ঘ-পরিসর ভাষার মডেলিং বেঞ্চমার্কের তুলনায় গড়ে 20X দীর্ঘ।

বই একটি ট্রেন, বৈধতা, এবং পরীক্ষা সেট মধ্যে বিভক্ত করা হয়. বইয়ের মেটাডেটা metadata.csv-এ সংরক্ষিত থাকে যাতে রয়েছে (book_id, short_book_title, publication_date, book_link)।

বিভক্ত উদাহরণ
'test' 100
'train' 28,602
'validation' 50
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
book_id টেনসর int32
book_link টেনসর স্ট্রিং
বই_পাঠ পাঠ্য স্ট্রিং
বইয়ের শিরোনাম টেনসর স্ট্রিং
প্রকাশনার তারিখ টেনসর স্ট্রিং
  • উদ্ধৃতি :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
,

  • বর্ণনা :

এই ডেটাসেটে PG-19 ভাষার মডেলিং বেঞ্চমার্ক রয়েছে। এটিতে প্রোজেক্ট গুটেনবার্গ বই প্রকল্প ( https://www.gutenberg.org ) থেকে প্রাপ্ত বইগুলির একটি সেট অন্তর্ভুক্ত রয়েছে যা 1919 সালের আগে প্রকাশিত হয়েছিল। এতে বইয়ের শিরোনাম এবং প্রকাশনার তারিখগুলির মেটাডেটাও রয়েছে। PG-19 বিলিয়ন ওয়ার্ড বেঞ্চমার্কের দ্বিগুণ আকারের এবং এতে ডকুমেন্ট রয়েছে যা WikiText দীর্ঘ-পরিসর ভাষার মডেলিং বেঞ্চমার্কের তুলনায় গড়ে 20X দীর্ঘ।

বই একটি ট্রেন, বৈধতা, এবং পরীক্ষা সেট মধ্যে বিভক্ত করা হয়. বইয়ের মেটাডেটা metadata.csv-এ সংরক্ষিত থাকে যাতে রয়েছে (book_id, short_book_title, publication_date, book_link)।

বিভক্ত উদাহরণ
'test' 100
'train' 28,602
'validation' 50
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
book_id টেনসর int32
book_link টেনসর স্ট্রিং
বই_পাঠ পাঠ্য স্ট্রিং
বইয়ের শিরোনাম টেনসর স্ট্রিং
প্রকাশনার তারিখ টেনসর স্ট্রিং
  • উদ্ধৃতি :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}