বইসাম

  • বর্ণনা :

বুকসাম: দীর্ঘ-ফর্ম বর্ণনার সংক্ষিপ্তসারের জন্য ডেটাসেটের সংগ্রহ

এই বাস্তবায়ন বর্তমানে শুধুমাত্র বই এবং অধ্যায়ের সারাংশ সমর্থন করে।

গিটহাব: https://github.com/salesforce/booksum

ম্যানুয়াল ফোল্ডারে নিম্নলিখিত ডিরেক্টরি থাকা উচিত:

- `booksum/`
- `all_chapterized_books/`
  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (পরীক্ষা, বৈধতা), শুধুমাত্র যখন shuffle_files=False (ট্রেন)

  • বৈশিষ্ট্য গঠন :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
নথি পাঠ্য স্ট্রিং
সারসংক্ষেপ পাঠ্য স্ট্রিং
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): ('document', 'summary')

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

বুকসাম/বই (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : বই-স্তরের সারসংক্ষেপ

  • ডেটাসেটের আকার : 208.81 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 46
'train' 312
'validation' 45

বইসাম/অধ্যায়

  • কনফিগ বর্ণনা : অধ্যায়-স্তরের সারসংক্ষেপ

  • ডেটাসেটের আকার : 216.71 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,083
'train' 6,524
'validation' 891