- বর্ণনা :
এই ডেটাসেটে PG-19 ভাষার মডেলিং বেঞ্চমার্ক রয়েছে। এটিতে প্রোজেক্ট গুটেনবার্গ বই প্রকল্প ( https://www.gutenberg.org ) থেকে প্রাপ্ত বইগুলির একটি সেট অন্তর্ভুক্ত রয়েছে যা 1919 সালের আগে প্রকাশিত হয়েছিল। এতে বইয়ের শিরোনাম এবং প্রকাশনার তারিখগুলির মেটাডেটাও রয়েছে। PG-19 বিলিয়ন ওয়ার্ড বেঞ্চমার্কের দ্বিগুণ আকারের এবং এতে ডকুমেন্ট রয়েছে যা WikiText দীর্ঘ-পরিসর ভাষার মডেলিং বেঞ্চমার্কের তুলনায় গড়ে 20X দীর্ঘ।
বই একটি ট্রেন, বৈধতা, এবং পরীক্ষা সেট মধ্যে বিভক্ত করা হয়. বইয়ের মেটাডেটা metadata.csv-এ সংরক্ষিত থাকে যাতে রয়েছে (book_id, short_book_title, publication_date, book_link)।
হোমপেজ : https://github.com/deepmind/pg19
সোর্স কোড :
tfds.datasets.pg19.Builder
সংস্করণ :
-
0.1.1
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড আকার :
Unknown size
ডেটাসেটের আকার :
10.94 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
book_id | টেনসর | int32 | ||
book_link | টেনসর | স্ট্রিং | ||
বই_পাঠ | পাঠ্য | স্ট্রিং | ||
বইয়ের শিরোনাম | টেনসর | স্ট্রিং | ||
প্রকাশনার তারিখ | টেনসর | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - বর্ণনা :
এই ডেটাসেটে PG-19 ভাষার মডেলিং বেঞ্চমার্ক রয়েছে। এটিতে প্রোজেক্ট গুটেনবার্গ বই প্রকল্প ( https://www.gutenberg.org ) থেকে প্রাপ্ত বইগুলির একটি সেট অন্তর্ভুক্ত রয়েছে যা 1919 সালের আগে প্রকাশিত হয়েছিল। এতে বইয়ের শিরোনাম এবং প্রকাশনার তারিখগুলির মেটাডেটাও রয়েছে। PG-19 বিলিয়ন ওয়ার্ড বেঞ্চমার্কের দ্বিগুণ আকারের এবং এতে ডকুমেন্ট রয়েছে যা WikiText দীর্ঘ-পরিসর ভাষার মডেলিং বেঞ্চমার্কের তুলনায় গড়ে 20X দীর্ঘ।
বই একটি ট্রেন, বৈধতা, এবং পরীক্ষা সেট মধ্যে বিভক্ত করা হয়. বইয়ের মেটাডেটা metadata.csv-এ সংরক্ষিত থাকে যাতে রয়েছে (book_id, short_book_title, publication_date, book_link)।
হোমপেজ : https://github.com/deepmind/pg19
সোর্স কোড :
tfds.datasets.pg19.Builder
সংস্করণ :
-
0.1.1
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড আকার :
Unknown size
ডেটাসেটের আকার :
10.94 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
book_id | টেনসর | int32 | ||
book_link | টেনসর | স্ট্রিং | ||
বই_পাঠ | পাঠ্য | স্ট্রিং | ||
বইয়ের শিরোনাম | টেনসর | স্ট্রিং | ||
প্রকাশনার তারিখ | টেনসর | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}