- বর্ণনা :
WikiHow হল অনলাইন WikiHow ( http://www.wikihow.com/ ) জ্ঞানের ভিত্তি ব্যবহার করে একটি নতুন বৃহৎ আকারের ডেটাসেট।
দুটি বৈশিষ্ট্য আছে: - পাঠ্য: উইকিহাউ পাঠের উত্তর দেয়। - শিরোনাম: সারাংশ হিসাবে গাঢ় লাইন।
দুটি পৃথক সংস্করণ রয়েছে: - সমস্ত: নিবন্ধ হিসাবে সমস্ত অনুচ্ছেদের সংমিশ্রণ এবং রেফারেন্স সারাংশ হিসাবে গাঢ় লাইন। - sep: প্রতিটি অনুচ্ছেদ এবং এর সারাংশ নিয়ে গঠিত।
https://github.com/mahnazkoupaee/WikiHow-Dataset থেকে "wikihowAll.csv" এবং "wikihowSep.csv" ডাউনলোড করুন এবং ম্যানুয়াল ফোল্ডারে রাখুন https://www.tensorflow.org/datasets/api_docs/python/tfds/ ডাউনলোড/ডাউনলোড কনফিগ ট্রেন/বৈধতা/পরীক্ষা বিভাজন লেখকদের দ্বারা প্রদান করা হয়। সংক্ষিপ্ত নিবন্ধগুলি (বিমূর্ত দৈর্ঘ্য < 0.75 নিবন্ধের দৈর্ঘ্য) সরাতে এবং অতিরিক্ত কমা পরিষ্কার করতে প্রিপ্রসেসিং প্রয়োগ করা হয়।
উত্স কোড :
tfds.summarization.Wikihow
সংস্করণ :
-
1.2.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড আকার :
5.21 MiB
ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা
download_config.manual_dir
করতে হবে (~/tensorflow_datasets/downloads/manual/
ডিফল্ট):
ফাইলগুলির লিঙ্কগুলি https://github.com/mahnazkoupaee/WikiHow-Dataset- এ পাওয়া যাবে দয়া করে wikihowAll.csv এবং wikihowSep.csv উভয়ই ডাউনলোড করুন৷স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('text', 'headline')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : নিবন্ধ হিসাবে সমস্ত অনুচ্ছেদের সংমিশ্রণ এবং রেফারেন্স সারাংশ হিসাবে গাঢ় লাইন ব্যবহার করুন
ডেটাসেটের আকার :
531.56 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 5,577 |
'train' | 157,252 |
'validation' | ৫,৫৯৯ |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
শিরোনাম | পাঠ্য | স্ট্রিং | ||
পাঠ্য | পাঠ্য | স্ট্রিং | ||
শিরোনাম | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
উইকিহাও/সেপ্টেম্বর
কনফিগ বিবরণ : প্রতিটি অনুচ্ছেদ এবং তার সারাংশ ব্যবহার করুন।
ডেটাসেটের আকার :
1.07 GiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 37,800 |
'train' | 1,060,732 |
'validation' | 37,932 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'headline': Text(shape=(), dtype=string),
'overview': Text(shape=(), dtype=string),
'sectionLabel': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
শিরোনাম | পাঠ্য | স্ট্রিং | ||
ওভারভিউ | পাঠ্য | স্ট্রিং | ||
বিভাগ লেবেল | পাঠ্য | স্ট্রিং | ||
পাঠ্য | পাঠ্য | স্ট্রিং | ||
শিরোনাম | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):