media_sum

বর্ণনা :

এই বৃহৎ মাপের মিডিয়া ইন্টারভিউ ডেটাসেটে বিমূর্ত সারাংশ সহ 463.6K ট্রান্সক্রিপ্ট রয়েছে, সাক্ষাত্কারের ট্রান্সক্রিপ্ট এবং NPR এবং CNN থেকে ওভারভিউ / বিষয়ের বিবরণ থেকে সংগৃহীত।

অনুগ্রহ করে শুধুমাত্র গবেষণার উদ্দেশ্যে এই ডেটাসেটের আপনার ব্যবহার সীমাবদ্ধ করুন।

এবং দয়া করে আমাদের কাগজটি উদ্ধৃত করুন: মিডিয়াসাম: সংলাপের সংক্ষিপ্তসারের জন্য একটি বৃহৎ-স্কেল মিডিয়া ইন্টারভিউ ডেটাসেট

নৈতিকতা

আমরা মিডিয়া উত্স থেকে শুধুমাত্র সর্বজনীনভাবে উপলব্ধ ট্রান্সক্রিপ্ট ডেটা ব্যবহার করেছি এবং তাদের শুধুমাত্র-গবেষণার-উদ্দেশ্য নির্দেশিকা মেনে চলেছি।

যেহেতু মিডিয়া এবং অতিথিদের পক্ষপাতদুষ্ট দৃষ্টিভঙ্গি থাকতে পারে, তাই প্রতিলিপি এবং সারাংশে সম্ভবত সেগুলি থাকবে৷ প্রতিলিপি এবং সারাংশের বিষয়বস্তু শুধুমাত্র মিডিয়া এবং অতিথিদের মতামত প্রতিফলিত করে এবং বিবেচনার সাথে দেখা উচিত।

হোমপেজ : https://github.com/zcgzcgzcg1/MediaSum
সোর্স কোড : tfds.datasets.media_sum.Builder
সংস্করণ :
- 1.0.0 (ডিফল্ট): প্রাথমিক প্রকাশ।
ডাউনলোড আকার : Unknown size
ডেটাসেটের আকার : 4.11 GiB
ম্যানুয়াল ডাউনলোডের নির্দেশাবলী : এই ডেটাসেটের জন্য আপনাকে ডাউনলোড_config.manual_dir-এ ম্যানুয়ালি উৎস ডেটা download_config.manual_dir করতে হবে ( ~/tensorflow_datasets/downloads/manual/ ডিফল্ট):
manual_dir ফাইলগুলি থাকা উচিত:
- news_dialogue.json
- train_val_test_split.json

ফাইলগুলি ডেটাসেটের গিটহাব পৃষ্ঠা থেকে ডাউনলোড এবং বের করা যেতে পারে: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'test'`	10,000
`'train'`	৪৪৩,৫৯৬
`'val'`	10,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ
	ফিচারসডিক্ট
তারিখ	পাঠ্য		স্ট্রিং
আইডি	পাঠ্য		স্ট্রিং
কার্যক্রম	পাঠ্য		স্ট্রিং
স্পিকার	ক্রম (পাঠ্য)	(কোনটিই নয়,)	স্ট্রিং
সারসংক্ষেপ	পাঠ্য		স্ট্রিং
url	পাঠ্য		স্ট্রিং
utt	ক্রম (পাঠ্য)	(কোনটিই নয়,)	স্ট্রিং

তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): ('utt', 'summary')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):

উদ্ধৃতি :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

media_sum সেভ করা পৃষ্ঠা গুছিয়ে রাখতে 'সংগ্রহ' ব্যবহার করুন আপনার পছন্দ অনুযায়ী কন্টেন্ট সেভ করুন ও সঠিক বিভাগে রাখুন।

নৈতিকতা

media_sum