- বর্ণনা :
Reddit ডেটাসেট, যেখানে TIFU সাবব্রেডিট /r/tifu এর নাম নির্দেশ করে। প্রকাশনায় সংজ্ঞায়িত হিসাবে, শৈলী "ছোট" সারাংশ হিসাবে শিরোনাম ব্যবহার করে এবং "দীর্ঘ" সারাংশ হিসাবে tldr ব্যবহার করে।
বৈশিষ্ট্য অন্তর্ভুক্ত:
- নথি: tldr ছাড়া পাঠ্য পোস্ট করুন।
- tldr: tldr লাইন।
- শিরোনাম: টিএলডিআর ছাড়া শিরোনাম ছাঁটা।
- ups: আপভোট।
- স্কোর: স্কোর।
- সংখ্যা_মন্তব্য: মন্তব্যের সংখ্যা।
upvote_ratio: আপভোট অনুপাত।
হোমপেজ : https://github.com/ctr4si/MMN
সোর্স কোড :
tfds.datasets.reddit_tifu.Builder
সংস্করণ :
-
1.1.0
: খালি নথি এবং সারাংশ স্ট্রিংগুলি সরান৷ -
1.1.1
: ট্রেন, ডেভ এবং টেস্ট (80/10/10) স্প্লিট যোগ করুন যা PEGASUS ( https://arxiv.org/abs/1912.08777 ) এ একটি পৃথক কনফিগারে ব্যবহার করা হয়। এগুলি এলোমেলোভাবে tfds স্প্লিট ফাংশন ব্যবহার করে তৈরি করা হয়েছে এবং Reddit Tifu Long এর ফলাফলগুলি পুনরুত্পাদনযোগ্য এবং তুলনাযোগ্য তা নিশ্চিত করার জন্য প্রকাশ করা হচ্ছে৷ এছাড়াও ডেটাপয়েন্টগুলিতেid
যুক্ত করুন৷ -
1.1.2
(ডিফল্ট): সংশোধন করা বিভক্ত আপলোড করা হয়েছে।
-
বৈশিষ্ট্য গঠন :
FeaturesDict({
'documents': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'num_comments': float32,
'score': float32,
'title': Text(shape=(), dtype=string),
'tldr': Text(shape=(), dtype=string),
'ups': float32,
'upvote_ratio': float32,
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
নথি | পাঠ্য | স্ট্রিং | ||
আইডি | পাঠ্য | স্ট্রিং | ||
সংখ্যা_মন্তব্য | টেনসর | float32 | ||
স্কোর | টেনসর | float32 | ||
শিরোনাম | পাঠ্য | স্ট্রিং | ||
tldr | পাঠ্য | স্ট্রিং | ||
ইউ। পি। এস | টেনসর | float32 | ||
আপভোট_অনুপাত | টেনসর | float32 |
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
reddit_tifu/short (ডিফল্ট কনফিগারেশন)
কনফিগ বিবরণ : সারাংশ হিসাবে শিরোনাম ব্যবহার করে।
ডাউনলোড সাইজ :
639.54 MiB
ডেটাসেটের আকার :
141.46 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন
shuffle_files=False
(ট্রেন)বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 79,740 |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc ):('documents', 'title')
উদাহরণ ( tfds.as_dataframe ):
reddit_tifu/লং
কনফিগারেশনের বিবরণ : সারাংশ হিসাবে TLDR ব্যবহার করা।
ডাউনলোড সাইজ :
639.54 MiB
ডেটাসেটের আকার :
93.10 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'train' | 42,139 |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc হিসাবে ):('documents', 'tldr')
উদাহরণ ( tfds.as_dataframe ):
reddit_tifu/long_split
কনফিগারেশনের বিবরণ : সারাংশ হিসাবে TLDR ব্যবহার করা এবং ট্রেন/পরীক্ষা/দেব বিভক্ত করা।
ডাউনলোডের আকার :
639.94 MiB
ডেটাসেটের আকার :
93.10 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 4,214 |
'train' | 33,711 |
'validation' | 4,214 |
তত্ত্বাবধানে থাকা কী (
as_supervised
doc হিসাবে ):('documents', 'tldr')
উদাহরণ ( tfds.as_dataframe ):