- বর্ণনা :
এই বৃহৎ মাপের মিডিয়া ইন্টারভিউ ডেটাসেটে বিমূর্ত সারাংশ সহ 463.6K ট্রান্সক্রিপ্ট রয়েছে, সাক্ষাত্কারের ট্রান্সক্রিপ্ট এবং NPR এবং CNN থেকে ওভারভিউ / বিষয়ের বিবরণ থেকে সংগৃহীত।
অনুগ্রহ করে শুধুমাত্র গবেষণার উদ্দেশ্যে এই ডেটাসেটের আপনার ব্যবহার সীমাবদ্ধ করুন।
এবং দয়া করে আমাদের কাগজটি উদ্ধৃত করুন: মিডিয়াসাম: সংলাপের সংক্ষিপ্তসারের জন্য একটি বৃহৎ-স্কেল মিডিয়া ইন্টারভিউ ডেটাসেট
নৈতিকতা
আমরা মিডিয়া উত্স থেকে শুধুমাত্র সর্বজনীনভাবে উপলব্ধ ট্রান্সক্রিপ্ট ডেটা ব্যবহার করেছি এবং তাদের শুধুমাত্র-গবেষণার-উদ্দেশ্য নির্দেশিকা মেনে চলেছি।
যেহেতু মিডিয়া এবং অতিথিদের পক্ষপাতদুষ্ট দৃষ্টিভঙ্গি থাকতে পারে, তাই প্রতিলিপি এবং সারাংশে সম্ভবত সেগুলি থাকবে৷ প্রতিলিপি এবং সারাংশের বিষয়বস্তু শুধুমাত্র মিডিয়া এবং অতিথিদের মতামত প্রতিফলিত করে এবং বিবেচনার সাথে দেখা উচিত।
সোর্স কোড :
tfds.datasets.media_sum.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): প্রাথমিক প্রকাশ।
-
ডাউনলোড আকার :
Unknown size
ডেটাসেটের আকার :
4.11 GiB
ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা
download_config.manual_dir
করতে হবে (~/tensorflow_datasets/downloads/manual/
ডিফল্ট):
manual_dir ফাইলগুলি থাকা উচিত:- news_dialogue.json
- train_val_test_split.json
ফাইলগুলি ডেটাসেটের গিটহাব পৃষ্ঠা থেকে ডাউনলোড এবং বের করা যেতে পারে: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 10,000 |
'train' | ৪৪৩,৫৯৬ |
'val' | 10,000 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
তারিখ | পাঠ্য | স্ট্রিং | ||
আইডি | পাঠ্য | স্ট্রিং | ||
কার্যক্রম | পাঠ্য | স্ট্রিং | ||
স্পিকার | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং | |
সারসংক্ষেপ | পাঠ্য | স্ট্রিং | ||
url | পাঠ্য | স্ট্রিং | ||
utt | ক্রম (পাঠ্য) | (কোনটিই নয়,) | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):('utt', 'summary')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}