- বর্ণনা :
চরম সংক্ষিপ্তকরণ (XSum) ডেটাসেট।
দুটি বৈশিষ্ট্য আছে: - নথি: ইনপুট সংবাদ নিবন্ধ. - সারাংশ: নিবন্ধের এক বাক্যের সারাংশ।
এই ডেটাটি https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md- এ বর্ণিত হিসাবে ম্যানুয়ালি ডাউনলোড এবং নিষ্কাশন করতে হবে 'xsum-extracts-from-downloads' ফোল্ডারটিকে এভাবে সংকুচিত করতে হবে 'xsum-extracts-from-downloads.tar.gz' এবং ম্যানুয়ালি ডাউনলোড করা ফোল্ডারে রাখুন।
হোমপেজ : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
সোর্স কোড :
tfds.summarization.Xsum
সংস্করণ :
-
1.0.0
: পরিস্কার ছাড়াই ডেটাসেট। -
1.1.0
(ডিফল্ট): ওয়েব বিষয়বস্তু সরিয়ে দেয়।
-
ডাউনলোডের আকার :
2.59 MiB
ডেটাসেটের আকার :
512.03 MiB
ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা
download_config.manual_dir
করতে হবে (~/tensorflow_datasets/downloads/manual/
ডিফল্ট):
বিস্তারিত ডাউনলোড নির্দেশাবলী (যার জন্য একটি কাস্টম স্ক্রিপ্ট চালানো প্রয়োজন) এখানে রয়েছে: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts afterwards , অনুগ্রহ করে ম্যানুয়াল_ডির-এ xsum-extracts-from-downloads.tar.gz ফাইলটি রাখুন।স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 11,301 |
'train' | 203,577 |
'validation' | 11,305 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
নথি | পাঠ্য | স্ট্রিং | ||
সারসংক্ষেপ | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('document', 'summary')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}