নিউজরুম

  • বর্ণনা :

NEWSROOM হল প্রশিক্ষণ এবং সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য একটি বড় ডেটাসেট। এটিতে 38টি প্রধান প্রকাশনার নিউজরুমে লেখক এবং সম্পাদকদের দ্বারা লিখিত 1.3 মিলিয়ন নিবন্ধ এবং সারসংক্ষেপ রয়েছে।

ডেটাসেট বৈশিষ্ট্য অন্তর্ভুক্ত:

  • পাঠ্য: ইনপুট সংবাদ পাঠ্য।
  • summary: খবরের সারাংশ।

এবং অতিরিক্ত বৈশিষ্ট্য:

  • শিরোনাম: সংবাদ শিরোনাম।
  • url: খবরের url.
  • তারিখ: নিবন্ধের তারিখ।
  • ঘনত্ব: নিষ্কাশন ঘনত্ব।
  • কভারেজ: নিষ্কাশনমূলক কভারেজ।
  • কম্প্রেশন: কম্প্রেশন অনুপাত।
  • ঘনত্ব_বিন: নিম্ন, মাঝারি, উচ্চ।
  • coverage_bin: নিষ্কাশনমূলক, বিমূর্ত।
  • কম্প্রেশন_বিন: নিম্ন, মাঝারি, উচ্চ।

এই ডেটাসেটটি অনুরোধের ভিত্তিতে ডাউনলোড করা যেতে পারে। সমস্ত বিষয়বস্তু "train.jsonl, dev.jsonl, test.jsonl" tfds ফোল্ডারে আনজিপ করুন।

  • অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন

  • হোমপেজ : https://summari.es

  • সোর্স কোড : tfds.datasets.newsroom.Builder

  • সংস্করণ :

    • 1.0.0 (ডিফল্ট): কোনো রিলিজ নোট নেই।
  • ডাউনলোড আকার : Unknown size

  • ডেটাসেটের আকার : 5.13 GiB

  • ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা download_config.manual_dir করতে হবে ( ~/tensorflow_datasets/downloads/manual/ ডিফল্ট):
    আপনার https://summari.es/download/ থেকে ডেটাসেট ডাউনলোড করা উচিত ওয়েবপৃষ্ঠাটির নিবন্ধন প্রয়োজন৷ ডাউনলোড করার পর, অনুগ্রহ করে manual_dir-এ dev.jsonl, test.jsonl এবং train.jsonl ফাইলগুলি রাখুন।

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 108,862
'train' 995,041
'validation' 108,837
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
সঙ্কোচন টেনসর float32
কম্প্রেশন_বিন পাঠ্য স্ট্রিং
কভারেজ টেনসর float32
কভারেজ_বিন পাঠ্য স্ট্রিং
তারিখ পাঠ্য স্ট্রিং
ঘনত্ব টেনসর float32
ঘনত্ব_বিন পাঠ্য স্ট্রিং
সারসংক্ষেপ পাঠ্য স্ট্রিং
পাঠ্য পাঠ্য স্ট্রিং
শিরোনাম পাঠ্য স্ট্রিং
url পাঠ্য স্ট্রিং
  • উদ্ধৃতি :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}