- বর্ণনা :
বুকসাম: দীর্ঘ-ফর্ম বর্ণনার সংক্ষিপ্তসারের জন্য ডেটাসেটের সংগ্রহ
এই বাস্তবায়ন বর্তমানে শুধুমাত্র বই এবং অধ্যায়ের সারাংশ সমর্থন করে।
গিটহাব: https://github.com/salesforce/booksum
সোর্স কোড :
tfds.datasets.booksum.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড আকার :
Unknown size
ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা
download_config.manual_dir
করতে হবে (~/tensorflow_datasets/downloads/manual/
ডিফল্ট):1) https://github.com/salesforce/booksum এ যান এবং ধাপ 1-3 চালান। পুরো
booksum
গিট প্রকল্পটি ম্যানুয়াল ফোল্ডারে রাখুন। 2) https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip থেকে চ্যাপ্টারাইজড বই ডাউনলোড করুন এবং ম্যানুয়াল ফোল্ডারে আনজিপ করুন।
ম্যানুয়াল ফোল্ডারে নিম্নলিখিত ডিরেক্টরি থাকা উচিত:
- `booksum/`
- `all_chapterized_books/`
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বৈশিষ্ট্য গঠন :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
নথি | পাঠ্য | স্ট্রিং | ||
সারসংক্ষেপ | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('document', 'summary')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
বুকসাম/বই (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : বই-স্তরের সারসংক্ষেপ
ডেটাসেটের আকার :
208.81 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- উদাহরণ ( tfds.as_dataframe ):
বইসাম/অধ্যায়
কনফিগ বর্ণনা : অধ্যায়-স্তরের সারসংক্ষেপ
ডেটাসেটের আকার :
216.71 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,083 |
'train' | 6,524 |
'validation' | 891 |
- উদাহরণ ( tfds.as_dataframe ):