সামসুম

  • বর্ণনা :

SAMSum Corpus-এ ম্যানুয়ালি টীকা করা সারাংশ সহ 16k চ্যাট ডায়ালগ রয়েছে।

দুটি বৈশিষ্ট্য আছে:

  • সংলাপ: সংলাপের পাঠ্য।
  • সারাংশ: সংলাপের মানুষের লিখিত সারাংশ।
  • আইডি: একটি উদাহরণের আইডি।

  • অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন

  • হোমপেজ : https://arxiv.org/src/1911.12237v2/anc

  • সোর্স কোড : tfds.datasets.samsum.Builder

  • সংস্করণ :

    • 1.0.0 (ডিফল্ট): কোনো রিলিজ নোট নেই।
  • ডাউনলোড আকার : Unknown size

  • ডেটাসেটের আকার : 10.71 MiB

  • ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা download_config.manual_dir করতে হবে ( ~/tensorflow_datasets/downloads/manual/ ডিফল্ট):
    https://arxiv.org/src/1911.12237v2/anc/corpus.7z ডাউনলোড করুন, ডিকম্প্রেস করুন এবং ম্যানুয়াল ফোল্ডারে train.json, val.json এবং test.json রাখুন।

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 819
'train' 14,732
'validation' 818
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
সংলাপ পাঠ্য স্ট্রিং
আইডি পাঠ্য স্ট্রিং
সারসংক্ষেপ পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}