media_sum

  • বর্ণনা :

এই বৃহৎ মাপের মিডিয়া ইন্টারভিউ ডেটাসেটে বিমূর্ত সারাংশ সহ 463.6K ট্রান্সক্রিপ্ট রয়েছে, সাক্ষাত্কারের ট্রান্সক্রিপ্ট এবং NPR এবং CNN থেকে ওভারভিউ / বিষয়ের বিবরণ থেকে সংগৃহীত।

অনুগ্রহ করে শুধুমাত্র গবেষণার উদ্দেশ্যে এই ডেটাসেটের আপনার ব্যবহার সীমাবদ্ধ করুন।

এবং দয়া করে আমাদের কাগজটি উদ্ধৃত করুন: মিডিয়াসাম: সংলাপের সংক্ষিপ্তসারের জন্য একটি বৃহৎ-স্কেল মিডিয়া ইন্টারভিউ ডেটাসেট

নৈতিকতা

আমরা মিডিয়া উত্স থেকে শুধুমাত্র সর্বজনীনভাবে উপলব্ধ ট্রান্সক্রিপ্ট ডেটা ব্যবহার করেছি এবং তাদের শুধুমাত্র-গবেষণার-উদ্দেশ্য নির্দেশিকা মেনে চলেছি।

যেহেতু মিডিয়া এবং অতিথিদের পক্ষপাতদুষ্ট দৃষ্টিভঙ্গি থাকতে পারে, তাই প্রতিলিপি এবং সারাংশে সম্ভবত সেগুলি থাকবে৷ প্রতিলিপি এবং সারাংশের বিষয়বস্তু শুধুমাত্র মিডিয়া এবং অতিথিদের মতামত প্রতিফলিত করে এবং বিবেচনার সাথে দেখা উচিত।

  • হোমপেজ : https://github.com/zcgzcgzcg1/MediaSum

  • সোর্স কোড : tfds.datasets.media_sum.Builder

  • সংস্করণ :

    • 1.0.0 (ডিফল্ট): প্রাথমিক প্রকাশ।
  • ডাউনলোড আকার : Unknown size

  • ডেটাসেটের আকার : 4.11 GiB

  • ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা download_config.manual_dir করতে হবে ( ~/tensorflow_datasets/downloads/manual/ ডিফল্ট):
    manual_dir ফাইলগুলি থাকা উচিত:

    • news_dialogue.json
    • train_val_test_split.json

ফাইলগুলি ডেটাসেটের গিটহাব পৃষ্ঠা থেকে ডাউনলোড এবং বের করা যেতে পারে: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

বিভক্ত উদাহরণ
'test' 10,000
'train' ৪৪৩,৫৯৬
'val' 10,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
তারিখ পাঠ্য স্ট্রিং
আইডি পাঠ্য স্ট্রিং
কার্যক্রম পাঠ্য স্ট্রিং
স্পিকার ক্রম (পাঠ্য) (কোনটিই নয়,) স্ট্রিং
সারসংক্ষেপ পাঠ্য স্ট্রিং
url পাঠ্য স্ট্রিং
utt ক্রম (পাঠ্য) (কোনটিই নয়,) স্ট্রিং
  • উদ্ধৃতি :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}