- বর্ণনা :
NEWSROOM হল প্রশিক্ষণ এবং সংক্ষিপ্তকরণ সিস্টেমের মূল্যায়নের জন্য একটি বড় ডেটাসেট। এটিতে 38টি প্রধান প্রকাশনার নিউজরুমে লেখক এবং সম্পাদকদের দ্বারা লিখিত 1.3 মিলিয়ন নিবন্ধ এবং সারসংক্ষেপ রয়েছে।
ডেটাসেট বৈশিষ্ট্য অন্তর্ভুক্ত:
- পাঠ্য: ইনপুট সংবাদ পাঠ্য।
- summary: খবরের সারাংশ।
এবং অতিরিক্ত বৈশিষ্ট্য:
- শিরোনাম: সংবাদ শিরোনাম।
- url: খবরের url.
- তারিখ: নিবন্ধের তারিখ।
- ঘনত্ব: নিষ্কাশন ঘনত্ব।
- কভারেজ: নিষ্কাশনমূলক কভারেজ।
- কম্প্রেশন: কম্প্রেশন অনুপাত।
- ঘনত্ব_বিন: নিম্ন, মাঝারি, উচ্চ।
- coverage_bin: নিষ্কাশনমূলক, বিমূর্ত।
- কম্প্রেশন_বিন: নিম্ন, মাঝারি, উচ্চ।
এই ডেটাসেটটি অনুরোধের ভিত্তিতে ডাউনলোড করা যেতে পারে। সমস্ত বিষয়বস্তু "train.jsonl, dev.jsonl, test.jsonl" tfds ফোল্ডারে আনজিপ করুন।
হোমপেজ : https://summari.es
সোর্স কোড :
tfds.datasets.newsroom.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড আকার :
Unknown size
ডেটাসেটের আকার :
5.13 GiB
ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা
download_config.manual_dir
করতে হবে (~/tensorflow_datasets/downloads/manual/
ডিফল্ট):
আপনার https://summari.es/download/ থেকে ডেটাসেট ডাউনলোড করা উচিত ওয়েবপৃষ্ঠাটির নিবন্ধন প্রয়োজন৷ ডাউনলোড করার পর, অনুগ্রহ করে manual_dir-এ dev.jsonl, test.jsonl এবং train.jsonl ফাইলগুলি রাখুন।স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 108,862 |
'train' | 995,041 |
'validation' | 108,837 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
সঙ্কোচন | টেনসর | float32 | ||
কম্প্রেশন_বিন | পাঠ্য | স্ট্রিং | ||
কভারেজ | টেনসর | float32 | ||
কভারেজ_বিন | পাঠ্য | স্ট্রিং | ||
তারিখ | পাঠ্য | স্ট্রিং | ||
ঘনত্ব | টেনসর | float32 | ||
ঘনত্ব_বিন | পাঠ্য | স্ট্রিং | ||
সারসংক্ষেপ | পাঠ্য | স্ট্রিং | ||
পাঠ্য | পাঠ্য | স্ট্রিং | ||
শিরোনাম | পাঠ্য | স্ট্রিং | ||
url | পাঠ্য | স্ট্রিং |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc ):('text', 'summary')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}